ChatPaper.aiChatPaper

SambaNova SN40L: 데이터플로우와 전문가 조합을 통해 AI 메모리 벽 극복하기

SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts

May 13, 2024
저자: Raghu Prabhakar, Ram Sivaramakrishnan, Darshan Gandhi, Yun Du, Mingran Wang, Xiangyu Song, Kejie Zhang, Tianren Gao, Angela Wang, Karen Li, Yongning Sheng, Joshua Brot, Denis Sokolov, Apurv Vivek, Calvin Leung, Arjun Sabnis, Jiayu Bai, Tuowen Zhao, Mark Gottscho, David Jackson, Mark Luttrell, Manish K. Shah, Edison Chen, Kaizhao Liang, Swayambhoo Jain, Urmish Thakker, Dawei Huang, Sumti Jairath, Kevin J. Brown, Kunle Olukotun
cs.AI

초록

GPT-4와 같은 단일 대규모 언어 모델(LLM)은 현대 생성형 AI 애플리케이션의 길을 열었습니다. 그러나 단일 LLM을 대규모로 훈련, 서비스 및 유지하는 것은 여전히 매우 비용이 많이 들고 어려운 과제입니다. 현대 AI 가속기의 계산 대 메모리 비율이 불균형적으로 증가하면서 메모리 벽이 발생했으며, 이는 AI를 배포하기 위한 새로운 방법을 필요로 하게 되었습니다. 전문가 조합(CoE)은 훈련 및 서비스 비용과 복잡성을 낮추는 모듈식 접근 방식입니다. 그러나 이 접근 방식은 기존 하드웨어를 사용할 때 두 가지 주요 문제를 제기합니다: (1) 융합된 연산이 없을 경우 더 작은 모델은 운영 강도가 낮아 높은 활용도를 달성하기가 더 어렵고; (2) 많은 수의 모델을 호스팅하는 것은 비용이 너무 많이 들거나 모델 간 동적 전환이 느려질 수 있습니다. 이 논문에서는 CoE, 스트리밍 데이터플로우, 그리고 3단계 메모리 시스템을 결합하여 AI 메모리 벽을 확장하는 방법을 설명합니다. 우리는 150명의 전문가와 총 1조 개의 파라미터를 가진 CoE 시스템인 Samba-CoE를 소개합니다. Samba-CoE는 SambaNova SN40L 재구성 가능 데이터플로우 유닛(RDU)에 배포되었습니다. 이는 기업용 추론 및 훈련 애플리케이션을 위해 공동 설계된 상용 데이터플로우 가속기 아키텍처입니다. 이 칩은 온칩 분산 SRAM, 온패키지 HBM, 그리고 오프패키지 DDR DRAM으로 구성된 새로운 3단계 메모리 시스템을 도입했습니다. 전용 RDU 간 네트워크는 다중 소켓에 걸쳐 확장을 가능하게 합니다. 우리는 8개의 RDU 소켓에서 실행된 다양한 벤치마크에서 2배에서 13배까지의 속도 향상을 보여줍니다. CoE 추론 배포에서 8소켓 RDU 노드는 기계 공간을 최대 19배 줄이고, 모델 전환 시간을 15배에서 31배까지 단축하며, DGX H100 대비 3.7배, DGX A100 대비 6.6배의 전반적인 속도 향상을 달성합니다.
English
Monolithic large language models (LLMs) like GPT-4 have paved the way for modern generative AI applications. Training, serving, and maintaining monolithic LLMs at scale, however, remains prohibitively expensive and challenging. The disproportionate increase in compute-to-memory ratio of modern AI accelerators have created a memory wall, necessitating new methods to deploy AI. Composition of Experts (CoE) is an alternative modular approach that lowers the cost and complexity of training and serving. However, this approach presents two key challenges when using conventional hardware: (1) without fused operations, smaller models have lower operational intensity, which makes high utilization more challenging to achieve; and (2) hosting a large number of models can be either prohibitively expensive or slow when dynamically switching between them. In this paper, we describe how combining CoE, streaming dataflow, and a three-tier memory system scales the AI memory wall. We describe Samba-CoE, a CoE system with 150 experts and a trillion total parameters. We deploy Samba-CoE on the SambaNova SN40L Reconfigurable Dataflow Unit (RDU) - a commercial dataflow accelerator architecture that has been co-designed for enterprise inference and training applications. The chip introduces a new three-tier memory system with on-chip distributed SRAM, on-package HBM, and off-package DDR DRAM. A dedicated inter-RDU network enables scaling up and out over multiple sockets. We demonstrate speedups ranging from 2x to 13x on various benchmarks running on eight RDU sockets compared with an unfused baseline. We show that for CoE inference deployments, the 8-socket RDU Node reduces machine footprint by up to 19x, speeds up model switching time by 15x to 31x, and achieves an overall speedup of 3.7x over a DGX H100 and 6.6x over a DGX A100.
PDF280December 15, 2024