구글이 쏘아올린 AI 반도체 지각변동…'학습·추론 분리'로 엔비디아 독점 흔든다

13년 집념의 결실…구글 8세대 TPU, AI 반도체 시장의 판도 바꾼다

구글이 AI 반도체 전략을 대폭 수정하며 엔비디아와의 정면 승부에 나섰다. 지금까지 하나의 칩으로 처리해온 AI 모델 학습과 추론 작업을 앞으로는 각각 별도의 전용 칩으로 분리해 효율성을 극대화하겠다는 전략이다.

구글은 8세대 텐서 프로세싱 유닛(TPU)부터 학습용 칩과 추론용 칩을 별도로 출시한다고 밝혔으며, 두 제품 모두 올해 말 시장에 선보일 예정이다.

학습과 추론, 칩도 분리하다

구글은 자체 설계한 AI 칩 TPU를 처음으로 학습용 'TPU 8t'와 추론용 'TPU 8i' 두 종류로 나눠 출시했으며, 7세대 '아이언우드'까지는 학습과 추론을 하나의 칩에서 모두 처리해 왔지만 8세대부터는 용도별로 칩 자체를 갈라낸 셈이다.

구글 클라우드 AI·인프라 부문 부사장 겸 최고기술책임자는 "컴퓨터는 더 이상 칩으로 정의되지 않는다. 컴퓨터는 데이터센터 전체"라고 선언했으며, 인공지능 경쟁의 무대가 반도체 칩에서 전력, 냉각, 네트워크, 저장장치를 아우르는 통합 인프라로 옮겨갔다는 의미다.

성능 3배 향상된 학습용 TPU 8t

학습 전용 가속기인 'TPU 8t'는 거대 언어모델 개발 주기를 수개월에서 수주 단위로 단축하도록 설계됐으며, 단일 슈퍼포드에서 9600개의 칩을 연결해 초당 100경 번 연산이 가능한 121 엑사플롭스의 성능과 2페타바이트의 공유 메모리를 제공한다.

이전 세대 대비 포드당 연산 성능이 약 3배 향상됐다. 새로운 버고 네트워크와 잭스 소프트웨어를 결합하면 단일 클러스터 내 최대 100만 개 칩까지 준선형 확장이 가능하다.

추론 특화, 달러당 성능 80% 향상

TPU 8i는 추론 전용 칩이라는 특성을 살려 SRAM 쪽으로 과감하게 설계를 밀어붙였으며, SRAM은 HBM보다 10~20배 빠르지만 칩 면적을 많이 차지한다는 물리적 한계가 있는데, 추론에만 집중하는 전용 칩이기에 가능한 트레이드오프다. AI 에이전트가 긴 대화 맥락을 처리할 때 발목을 잡던 KV 캐시를 실리콘 위에 통째로 올릴 수 있게 됐다.

칩 간 동기화 단계를 5배 가속화하는 집합 가속 엔진을 통해 TPU 8i는 이전 세대보다 달러당 추론 성능이 80% 향상됐다. 새롭게 도입된 보드플라이 토폴로지는 데이터 이동 단계를 기존 16홉에서 7홉으로 단축해 꼬리 지연 시간을 56% 개선했다.

에이전틱 AI 시대의 인프라 혁신

8세대 TPU의 또 다른 변화는 자체 설계한 Arm 기반 CPU인 액시온을 호스트로 전격 통합했다는 점이며, 이를 통해 호스트와 가속기 간의 병목 현상을 제거하고 시스템 전체의 에너지 효율을 이전 세대 대비 최대 2배 개선했다.

구글 AI 인프라 부문 수석 부사장 겸 최고기술책임자는 "AI 에이전트의 확산과 함께 학습과 서비스 제공에 각각 특화된 칩이 필요하다고 판단했으며, 각 작업에 최적화된 전용 프로세서가 더 큰 효율성을 제공할 것"이라고 설명했다.

엔비디아 독점 체제에 실질적 균열

반도체 공급 부족이 해소되는 포스트 슈퍼 사이클 시기에 접어들면, 기업들이 단순 성능보다는 운영 비용과 전력 효율에 집중하게 되어 구글 TPU의 가성비 경쟁력이 더욱 높아질 것으로 내다보고 있으며, 블룸버그는 구글이 엔비디아가 장악한 시장에서 가장 성공적인 자체 칩 제조사 중 하나로 부상했고, 최근 실리콘밸리에서 TPU가 '가장 핫한 상품'이 됐다고 평가했다.

AI 인프라의 승패가 이제 단순히 더 많은 GPU를 꽂는 것이 아니라, CPU와 GPU, 메모리를 얼마나 효율적으로 연결하고 제어하느냐에 달려 있다.

다층형 AI 인프라의 시대로

AI 산업이 단순한 모델 개발 경쟁을 넘어 '누가 더 효율적인 인프라를 구축하느냐'의 싸움으로 옮겨가면서, 반도체 주도권을 둘러싼 빅테크 간 경쟁도 더욱 치열해질 전망이다.

구글의 8세대 TPU 공개는 단순한 성능 업그레이드를 넘어 AI 반도체 시장의 구조적 변화를 예고하는 신호다. 학습과 추론이라는 완전히 다른 워크로드에 특화된 칩을 따로 제공하는 전략은, AI 인프라 경쟁이 더 이상 단편적인 칩 성능이 아닌 통합 시스템의 효율성으로 판가름 난다는 구글의 판단을 명확히 드러낸다.

실제로 메모리 반도체 업계도 AI 수요의 다양화에 대응하면서 HBM을 중심으로 포트폴리오를 재편하고 있다. 구글의 움직임이 기존의 GPU 일점 체제에서 다층형 AI 인프라로의 전환을 가속화할 것으로 전망되는 이유도 여기에 있다. 에이전틱 AI 시대로의 진입이 가시화되는 가운데, 효율성과 비용 경쟁력을 무기로 삼은 구글의 도전은 글로벌 반도체 산업 지형도를 크게 뒤흔들 가능성이 높다.

기자 류상욱

구글이 쏘아올린 AI 반도체 지각변동…'학습·추론 분리'로 엔비디아 독점 흔든다

13년 집념의 결실…구글 8세대 TPU, AI 반도체 시장의 판도 바꾼다

학습과 추론, 칩도 분리하다

성능 3배 향상된 학습용 TPU 8t

추론 특화, 달러당 성능 80% 향상

에이전틱 AI 시대의 인프라 혁신

엔비디아 독점 체제에 실질적 균열

다층형 AI 인프라의 시대로

이 트렌드의 역사적 뿌리

통찰 훈련소

관련 기사

우주에서 AI를 돌린다? 스페이스X·구글·엔비디아가 주목한 차세대 전장

젠슨 황의 충격 발언, "오픈AI 300억달러 투자가 마지막일 수도"

사람 뇌를 닮은 AI 반도체, IBM·인텔 다음은 한국이다