Quartet: Нативное обучение с FP4 может быть оптимальным для больших языковых моделей

Аннотация

Быстрое развитие крупных языковых моделей (LLM) сопровождается беспрецедентным ростом вычислительных требований, при этом стоимость обучения современных моделей удваивается каждые несколько месяцев. Обучение моделей непосредственно в арифметике с низкой точностью предлагает решение, улучшая как вычислительную пропускную способность, так и энергоэффективность. В частности, недавняя архитектура NVIDIA Blackwell поддерживает операции с крайне низкой точностью, а именно варианты FP4, обещая значительное повышение эффективности. Однако текущие алгоритмы для обучения LLM с точностью FP4 сталкиваются с существенным ухудшением точности и часто полагаются на смешанные режимы точности. В данной работе мы систематически исследуем аппаратно поддерживаемое обучение с точностью FP4 и представляем Quartet — новый подход, позволяющий проводить точное сквозное обучение в FP4, при котором все основные вычисления (например, в линейных слоях) выполняются с низкой точностью. Благодаря обширным оценкам на моделях типа Llama мы выявляем новый закон масштабирования для низкой точности, который количественно оценивает компромиссы производительности при различных разрядностях и позволяет нам определить "почти оптимальную" технику обучения с низкой точностью с точки зрения точности и вычислительных затрат, называемую Quartet. Мы реализуем Quartet с использованием оптимизированных ядер CUDA, адаптированных для GPU NVIDIA Blackwell, и показываем, что он может достигать современной точности для FP4, успешно обучая модели масштаба миллиардов параметров. Наш метод демонстрирует, что полностью основанное на FP4 обучение является конкурентоспособной альтернативой обучению с стандартной точностью и FP8. Наш код доступен по адресу https://github.com/IST-DASLab/Quartet.

English

The rapid advancement of large language models (LLMs) has been paralleled by unprecedented increases in computational demands, with training costs for state-of-the-art models doubling every few months. Training models directly in low-precision arithmetic offers a solution, by improving both computational throughput and energy efficiency. Specifically, NVIDIA's recent Blackwell architecture facilitates extremely low-precision operations, specifically FP4 variants, promising substantial efficiency gains. Yet, current algorithms for training LLMs in FP4 precision face significant accuracy degradation and often rely on mixed-precision fallbacks. In this paper, we systematically investigate hardware-supported FP4 training and introduce Quartet, a new approach enabling accurate, end-to-end FP4 training with all the major computations (in e.g. linear layers) being performed in low precision. Through extensive evaluations on Llama-type models, we reveal a new low-precision scaling law that quantifies performance trade-offs across varying bit-widths and allows us to identify a "near-optimal" low-precision training technique in terms of accuracy-vs-computation, called Quartet. We implement Quartet using optimized CUDA kernels tailored for NVIDIA Blackwell GPUs, and show that it can achieve state-of-the-art accuracy for FP4 precision, successfully training billion-scale models. Our method demonstrates that fully FP4-based training is a competitive alternative to standard-precision and FP8 training. Our code is available at https://github.com/IST-DASLab/Quartet.

Quartet: Нативное обучение с FP4 может быть оптимальным для больших языковых моделей

Quartet: Native FP4 Training Can Be Optimal for Large Language Models

Аннотация

Support