본문 바로가기

기술정보

[반도체/메모리] CXL 메모리는 HBM을 대체할까?-AI 시대 메모리 아키텍처의 진짜 변화

반응형

HBM 메모리를 표현한 그림

HBM이 부족해서가 아니라, 구조가 바뀌고 있다

 

AI 반도체 경쟁이 심화되면서 메모리는 더 이상 부품이 아니라

시스템 구조를 규정하는 핵심 요소가 되었습니다.

최근 몇 년간 AI 성능 향상의 중심에는 HBM(High Bandwidth Memory)이 있었고,

이는 사실상 GPU 성능을 결정짓는 기준이 되었습니다.

그러나 2025년을 전후해 업계에서는 새로운 질문이 등장합니다.

“HBM이 충분히 빠른데, 왜 CXL 메모리가 이렇게 주목받는가?”

그리고 그 질문은 곧 이렇게 이어집니다.

“CXL 메모리는 HBM을 대체하게 될까?”

 

이 글의 결론을 먼저 말하자면, CXL은 HBM을 대체하지 않습니다.

대신, HBM이 해결하지 못하는 구조적 문제를 보완하며

AI 메모리 아키텍처를 근본적으로 바꾸는 역할을 맡게 됩니다.

이번 포스팅에서는 그 이유를 기술 구조 관점에서 차분히 풀어보겠습니다.

 


 

HBM의 본질 – 빠르지만 ‘가까운’ 메모리

 

HBM은 GPU 패키지 내부, 혹은 바로 옆에 위치한 초고대역폭 메모리입니다.

3D TSV 적층 구조를 통해 대역폭과 지연시간을 극단적으로 낮추는 대신,

물리적으로 매우 가까운 거리에서만 동작합니다.

 

이 구조 덕분에 HBM은 다음과 같은 장점을 가집니다.

  • 초고대역폭(수백 GB/s~TB/s)
  • 매우 낮은 지연시간
  • AI 훈련과 추론에서 결정적 성능 기여

하지만 동시에 분명한 한계도 존재합니다.

  • GPU 하나당 탑재 가능한 용량의 물리적 한계
  • 고비용·고난도 패키징 공정
  • 수율·발열·공급 안정성 문제

즉, HBM은 “가장 빠르지만 가장 비싼, 가장 가까운 메모리”라는 성격을 가집니다.

 


 

AI 모델이 커질수록 드러나는 HBM의 구조적 한계

 

최신 대형언어모델과 멀티모달 모델은

파라미터 수가 수백억~수조 단위로 커지고 있습니다.

이 모든 데이터를 GPU 내부 HBM에만 올리는 것은 현실적으로 불가능합니다.

 

이 지점에서 문제가 발생합니다.

  • GPU는 빠르지만
  • HBM 용량은 제한적이고
  • GPU 외부 DRAM이나 스토리지와의 성능 격차는 매우 큼

이 격차가 바로 AI 시스템의 새로운 병목입니다.

HBM이 느려서가 아니라, HBM만으로는 부족해지는 구조가 된 것입니다.

 


 

CXL이란 무엇인가 – 메모리를 ‘공유’하는 인터페이스

 

CXL(Compute Express Link)은 단순한 메모리 기술이 아니라

메모리를 바라보는 관점을 바꾸는 인터페이스 표준입니다.

PCIe 기반으로 설계된 CXL은 CPU, GPU, 가속기들이

동일한 메모리 풀을 공유할 수 있도록 합니다.

 

이 표준은 PCI-SIG를 중심으로 정의되었고,

Intel, AMD, NVIDIA 등 주요 반도체 기업들이 적극 참여하고 있습니다.

 

CXL의 핵심은 다음과 같습니다.

  • 메모리를 특정 프로세서에 귀속시키지 않음
  • 필요에 따라 메모리 자원을 동적으로 할당
  • 대규모 외부 메모리 풀 구성 가능

즉, CXL은 “더 빠른 메모리”가 아니라 “더 유연한 메모리”입니다.

 


 

CXL과 HBM의 근본적 차이 – 속도 vs 확장성

 

HBM과 CXL은 동일한 문제를 서로 다른 방식으로 해결합니다.

  • HBM : 연산 유닛 바로 옆에서 최고 속도로 처리
  • CXL : 연산 유닛 바깥에서 대규모 메모리를 유연하게 연결

HBM이 CPU 캐시나 L1/L2 메모리에 가깝다면,

CXL 메모리는 L3~확장 메모리 계층에 해당합니다.

이 둘은 경쟁 관계라기보다 계층이 다른 역할 분담 구조입니다.

 


 

CXL이 HBM을 대체하지 못하는 이유

 

첫째, 지연시간의 물리적 차이입니다.

아무리 CXL이 발전하더라도,

패키지 내부에서 직접 연결된 HBM의 지연시간을 따라잡기는 어렵습니다.

 

둘째, AI 연산의 특성입니다.

대규모 행렬 연산과 같은 AI 핵심 연산은 여전히 초저지연·초고대역폭 메모리를 요구합니다.

이 영역은 HBM의 독무대입니다.

 

셋째, 전력 효율 문제입니다.

HBM은 단위 데이터 전송당 전력 효율이 매우 높아,

고밀도 연산 환경에서 여전히 최적의 선택입니다.

 


 

그렇다면 CXL은 어디에서 빛나는가

 

CXL의 진짜 가치는 HBM이 감당하지 못하는 영역에서 나타납니다.

  • 초대형 모델의 파라미터 확장
  • 다수 GPU 간 메모리 공유
  • AI 서버의 메모리 자원 유연화
  • 데이터센터 메모리 비용 절감

특히 추론(Inference) 환경에서는 모든 데이터를 HBM에 둘 필요가 없기 때문에,

CXL 메모리는 비용 대비 성능을 극적으로 개선할 수 있습니다.

 


 

미래 AI 시스템의 정답 – HBM + CXL 공존 구조

 

2025년 이후의 AI 시스템은 다음과 같은 구조로 진화할 가능성이 큽니다.

  • GPU 패키지 내부 : HBM4·HBM4E
  • 노드 단위 확장 : CXL 메모리 풀
  • 시스템 전반 : 메모리 자원 동적 관리 소프트웨어

이 구조에서는 HBM이 “속도의 왕” 역할을,

CXL이 “규모와 유연성의 왕” 역할을 맡습니다.

어느 하나가 다른 하나를 대체하는 것이 아니라,

함께 쓰이지 않으면 AI 시스템이 완성되지 않는 구조입니다.

 


 

CXL은 HBM의 경쟁자가 아니라, HBM의 한계를 드러낸 기술이다

 

“CXL 메모리는 HBM을 대체할까?”라는 질문은

기술 경쟁의 관점에서는 자연스럽지만,

시스템 아키텍처 관점에서는 정확하지 않습니다.

CXL은 HBM을 밀어내기 위해 등장한 기술이 아니라,

HBM 중심 구조만으로는 더 이상 확장할 수 없다는 사실을 드러낸 기술입니다.

 

AI 시대의 메모리 패권은 단일 기술이 독점하는 형태가 아니라,

  • 빠른 메모리(HBM)
  • 넓은 메모리(CXL)
  • 이를 조율하는 소프트웨어

 모두 함께 작동하는 복합 구조로 진화하고 있습니다.

 

결국 승자는 더 빠른 메모리를 만든 기업이 아니라,

메모리를 어떻게 연결하고, 어떻게 쓰게 만들 것인가를 설계한 기업이 될 것입니다.

반응형