ChatPaper.aiChatPaper

딥러닝을 위한 마이크로스케일링 데이터 포맷

Microscaling Data Formats for Deep Learning

October 16, 2023
저자: Bita Darvish Rouhani, Ritchie Zhao, Ankit More, Mathew Hall, Alireza Khodamoradi, Summer Deng, Dhruv Choudhary, Marius Cornea, Eric Dellinger, Kristof Denolf, Stosic Dusan, Venmugil Elango, Maximilian Golub, Alexander Heinecke, Phil James-Roxby, Dharmesh Jani, Gaurav Kolhe, Martin Langhammer, Ada Li, Levi Melnick, Maral Mesmakhosroshahi, Andres Rodriguez, Michael Schulte, Rasoul Shafipour, Lei Shao, Michael Siu, Pradeep Dubey, Paulius Micikevicius, Maxim Naumov, Colin Verilli, Ralph Wittig, Eric Chung
cs.AI

초록

좁은 비트폭 데이터 형식은 현대 딥러닝 애플리케이션의 계산 및 저장 비용을 줄이는 데 핵심적인 역할을 합니다. 본 논문은 블록별 스케일링 팩터와 개별 요소에 대한 좁은 부동소수점 및 정수 타입을 결합한 마이크로스케일링(MX) 데이터 형식을 평가합니다. MX 형식은 하드웨어 효율성, 모델 정확도, 사용자 편의성이라는 상충되는 요구 사항을 균형 있게 조화시킵니다. 20개 이상의 벤치마크에 대한 실험 결과는 MX 데이터 형식이 AI 추론 및 학습에서 기본 FP32를 대체할 수 있는 실용적인 대안임을 보여주며, 사용자에게 거의 불편을 주지 않습니다. 또한, 우리는 생성형 언어 모델을 8비트 미만의 가중치, 활성화, 그래디언트로 학습시키면서도 최소한의 정확도 손실만 발생시키고 학습 레시피를 수정하지 않은 첫 사례를 보여줍니다.
English
Narrow bit-width data formats are key to reducing the computational and storage costs of modern deep learning applications. This paper evaluates Microscaling (MX) data formats that combine a per-block scaling factor with narrow floating-point and integer types for individual elements.MX formats balance the competing needs of hardware efficiency, model accuracy, and user friction. Empirical results on over two dozen benchmarks demonstrate practicality of MX data formats as a drop-in replacement for baseline FP32 for AI inference and training with low user friction. We also show the first instance of training generative language models at sub-8-bit weights, activations, and gradients with minimal accuracy loss and no modifications to the training recipe.
PDF81December 15, 2024