ChatPaper.aiChatPaper

Quartet: Нативное обучение с FP4 может быть оптимальным для больших языковых моделей

Quartet: Native FP4 Training Can Be Optimal for Large Language Models

May 20, 2025
Авторы: Roberto L. Castro, Andrei Panferov, Soroush Tabesh, Oliver Sieberling, Jiale Chen, Mahdi Nikdan, Saleh Ashkboos, Dan Alistarh
cs.AI

Аннотация

Быстрое развитие крупных языковых моделей (LLM) сопровождается беспрецедентным ростом вычислительных требований, при этом стоимость обучения современных моделей удваивается каждые несколько месяцев. Обучение моделей непосредственно в арифметике с низкой точностью предлагает решение, улучшая как вычислительную пропускную способность, так и энергоэффективность. В частности, недавняя архитектура NVIDIA Blackwell поддерживает операции с крайне низкой точностью, а именно варианты FP4, обещая значительное повышение эффективности. Однако текущие алгоритмы для обучения LLM с точностью FP4 сталкиваются с существенным ухудшением точности и часто полагаются на смешанные режимы точности. В данной работе мы систематически исследуем аппаратно поддерживаемое обучение с точностью FP4 и представляем Quartet — новый подход, позволяющий проводить точное сквозное обучение в FP4, при котором все основные вычисления (например, в линейных слоях) выполняются с низкой точностью. Благодаря обширным оценкам на моделях типа Llama мы выявляем новый закон масштабирования для низкой точности, который количественно оценивает компромиссы производительности при различных разрядностях и позволяет нам определить "почти оптимальную" технику обучения с низкой точностью с точки зрения точности и вычислительных затрат, называемую Quartet. Мы реализуем Quartet с использованием оптимизированных ядер CUDA, адаптированных для GPU NVIDIA Blackwell, и показываем, что он может достигать современной точности для FP4, успешно обучая модели масштаба миллиардов параметров. Наш метод демонстрирует, что полностью основанное на FP4 обучение является конкурентоспособной альтернативой обучению с стандартной точностью и FP8. Наш код доступен по адресу https://github.com/IST-DASLab/Quartet.
English
The rapid advancement of large language models (LLMs) has been paralleled by unprecedented increases in computational demands, with training costs for state-of-the-art models doubling every few months. Training models directly in low-precision arithmetic offers a solution, by improving both computational throughput and energy efficiency. Specifically, NVIDIA's recent Blackwell architecture facilitates extremely low-precision operations, specifically FP4 variants, promising substantial efficiency gains. Yet, current algorithms for training LLMs in FP4 precision face significant accuracy degradation and often rely on mixed-precision fallbacks. In this paper, we systematically investigate hardware-supported FP4 training and introduce Quartet, a new approach enabling accurate, end-to-end FP4 training with all the major computations (in e.g. linear layers) being performed in low precision. Through extensive evaluations on Llama-type models, we reveal a new low-precision scaling law that quantifies performance trade-offs across varying bit-widths and allows us to identify a "near-optimal" low-precision training technique in terms of accuracy-vs-computation, called Quartet. We implement Quartet using optimized CUDA kernels tailored for NVIDIA Blackwell GPUs, and show that it can achieve state-of-the-art accuracy for FP4 precision, successfully training billion-scale models. Our method demonstrates that fully FP4-based training is a competitive alternative to standard-precision and FP8 training. Our code is available at https://github.com/IST-DASLab/Quartet.

Summary

AI-Generated Summary

PDF702May 26, 2025