엔비디아 블랙웰(Blackwell) 과열 문제 발생, AI 시장 영향은?
[서론] The Information의 보도에 따르면, NVIDIA의 최신 AI 칩 '블랙웰(Blackwell)'이 탑재된 서버 랙에서 심각한 과열 문제가 발생하여 Microsoft, Google, Amazon, Meta 등 주요 고객이 주문을 재검토하고 있습니다. 이들 기업들은 수백억 달러 규모로 주문한 신형 GB200 랙의 수령을 연기하고, 일부는 이전 세대 '호퍼(Hopper)' 칩으로의 전환을 검토하고 있는 것으로 알려졌습니다.
[본론 1] 잇따른 기술적 문제로 주요 고객사의 신뢰 흔들려
신형 블랙웰 칩이 탑재된 서버 랙의 초기 출하분에서 심각한 과열 문제와 칩 간 연결 결함이 드러나고 있습니다. 특히 문제가 되고 있는 것은 랙당 120~132kW에 달하는 매우 높은 전력 밀도입니다. 이 강력한 발열량은 기존 냉각 시스템의 한계를 크게 넘어서는 것으로, 특히 72개의 칩을 장착한 대규모 구성에서는 열 문제가 두드러지게 나타나고 있습니다.
TSMC의 첨단 칩 패키징 기술인 CoWoS(Chip on Wafer on Substrate)의 채택으로 문제가 더욱 복잡해지고 있습니다. 블랙웰 칩은 하나의 패키지에 두 개의 대형 GPU 다이를 통합하는 복잡한 설계를 특징으로 하며, 이로 인해 열 분포의 불균일성이 발생하고 있습니다. 그 결과 칩에 국부적인 고온 영역(핫스팟)이 발생하여 안정성에 심각한 영향을 미치는 것으로 알려졌습니다.
엔비디아는 이러한 문제를 해결하기 위해 공급업체에 여러 차례 서버 랙 설계 수정을 요청했습니다. 그러나 칩 레벨에서의 열 최적화, 혁신적인 냉각 기술 개발, 그리고 데이터센터 랙 인프라 전반의 재설계가 요구되고 있기에 해결이 더욱 어려운 상황입니다.
또한, 칩 간 상호 연결에 대한 결함도 보고되고 있습니다. AI 워크로드를 처리하기 위해서는 여러 칩 간의 효율적인 데이터 통신이 필수적이지만, 이 부분에서도 기대만큼의 성능을 발휘하고 있지 못하고 있는 것으로 보입니다.
[본론 2] 고객 대응 엇갈리는 가운데 주가에 영향
이른바 '하이퍼스케일러'로 불리는 엔비디아 GPU의 대형 고객사들의 대응이 엇갈리고 있습니다. 마이크로소프트는 당초 애리조나주 피닉스 데이터센터에 최소 50,000개의 블랙웰 칩 도입을 계획했으나, 현재 이 계획을 재검토하고 있습니다.
특히 OpenAI는 블랙웰의 발열 문제로 인해 이전 세대 '호퍼(Hopper)' 아키텍처로의 전환을 Microsoft에 요청한 것으로 알려졌습니다. 검증된 기술을 선택함으로써 개발 일정에 미치는 영향을 최소하하려는 것으로 보입니다.
아마존 웹 서비스, 구글, 메타 등도 각각 100억 달러 규모의 블랙웰 GB200 랙 주문에 대해 규모 재검토 및 납기 연기를 검토하고 있습니다. 다만 AI 인프라 전략 전체를 재검토하는 것이 아니라 모두 이는 일시적인 조정이라는 입장을 보이고 있습니다.
[본론 3] 개인적 견해
엔비디아의 CEO 젠슨 황은 지난해 11월 블랙웰(Blackwell) 칩으로 4분기에 수십억 달러 규모의 매출을 올릴 것으로 예상했습니다. 현재의 발열 문제로 인해 이 목표가 어느 정도 영향을 끼칠 수 있다고 생각됩니다. 대형 고객사의 주문 조정은 기술적 문제가 당초 예상보다 더 심각할 수 있음을 시사합니다.
지금까지 엔비디아가 독점해온 AI 칩 시장에서 AMD나 인텔과 같은 경쟁사들이 틈새를 찾을 기회가 될 수 있을까요? 또한 이러한 기술적 한계는 데이터센터 설계의 근본적인 변화를 촉발할 수도 있습니다. 더욱 흥미로운 점은 이 사태가 AI 발전 속도에 미칠 영향입니다. 성능과 안정성 사이의 균형점을 찾아가는 과정에서, AI 업계는 어떤 선택을 하게 될까요? OpenAI의 호퍼 전환 검토는 이미 그 답의 일부를 보여주고 있는 것은 아닐까요? 앞으로 몇 개월간 이 문제의 전개 방향을 주의 깊게 지켜볼 필요가 있습니다. 엔비디아의 대응과 경쟁사들의 움직임, 그리고 데이터센터 설계의 변화가 AI 산업 전반에 어떤 파급효과를 미칠지 귀추가 주목됩니다.
참고자료
https://www.theinformation.com/articles/nvidias-top-customers-face-delays-from-glitchy-ai-chip-racks
'관심 가는 이야기。' 카테고리의 다른 글
Meta 메타 저커버그 CEO "2025년 중급 엔지니어 AI로 대체될 수 있다" (2) | 2025.01.16 |
---|---|
ARM, 소프트뱅크의 야심찬 도전: Ampere Computing 인수 (0) | 2025.01.15 |
TSMC 애리조나 신공장, AMD Ryzen 9000 및 Apple S9 최신 칩 생산 시작 (0) | 2025.01.14 |
트럼프 대통령 당선인, UAE DAMAC이 미국 데이터센터에 200억 달러 투자 발표 (0) | 2025.01.14 |
AMD Ryzen 9800X3D 품귀현상 : 인텔 Arrow Lake의 성능 부진 (0) | 2025.01.13 |