Quartet: El entrenamiento nativo en FP4 puede ser óptimo para modelos de lenguaje grandes
Quartet: Native FP4 Training Can Be Optimal for Large Language Models
May 20, 2025
Autores: Roberto L. Castro, Andrei Panferov, Soroush Tabesh, Oliver Sieberling, Jiale Chen, Mahdi Nikdan, Saleh Ashkboos, Dan Alistarh
cs.AI
Resumen
El rápido avance de los modelos de lenguaje de gran escala (LLMs) ha ido acompañado de aumentos sin precedentes en las demandas computacionales, con los costos de entrenamiento para los modelos más avanzados duplicándose cada pocos meses. Entrenar modelos directamente en aritmética de baja precisión ofrece una solución, mejorando tanto el rendimiento computacional como la eficiencia energética. En particular, la reciente arquitectura Blackwell de NVIDIA facilita operaciones de extremadamente baja precisión, específicamente variantes de FP4, prometiendo ganancias sustanciales en eficiencia. Sin embargo, los algoritmos actuales para entrenar LLMs en precisión FP4 enfrentan una degradación significativa en la precisión y a menudo dependen de respaldos de precisión mixta. En este artículo, investigamos sistemáticamente el entrenamiento en FP4 con soporte de hardware e introducimos Quartet, un nuevo enfoque que permite un entrenamiento preciso y de extremo a extremo en FP4, con todos los cálculos principales (por ejemplo, en capas lineales) realizados en baja precisión. A través de evaluaciones extensas en modelos tipo Llama, revelamos una nueva ley de escalado de baja precisión que cuantifica las compensaciones de rendimiento en varios anchos de bits y nos permite identificar una técnica de entrenamiento de baja precisión "casi óptima" en términos de precisión versus computación, llamada Quartet. Implementamos Quartet utilizando núcleos CUDA optimizados diseñados para las GPU NVIDIA Blackwell, y demostramos que puede alcanzar una precisión de vanguardia para la precisión FP4, entrenando con éxito modelos de escala de miles de millones. Nuestro método demuestra que el entrenamiento completamente basado en FP4 es una alternativa competitiva al entrenamiento en precisión estándar y en FP8. Nuestro código está disponible en https://github.com/IST-DASLab/Quartet.
English
The rapid advancement of large language models (LLMs) has been paralleled by
unprecedented increases in computational demands, with training costs for
state-of-the-art models doubling every few months. Training models directly in
low-precision arithmetic offers a solution, by improving both computational
throughput and energy efficiency. Specifically, NVIDIA's recent Blackwell
architecture facilitates extremely low-precision operations, specifically FP4
variants, promising substantial efficiency gains. Yet, current algorithms for
training LLMs in FP4 precision face significant accuracy degradation and often
rely on mixed-precision fallbacks. In this paper, we systematically investigate
hardware-supported FP4 training and introduce Quartet, a new approach enabling
accurate, end-to-end FP4 training with all the major computations (in e.g.
linear layers) being performed in low precision. Through extensive evaluations
on Llama-type models, we reveal a new low-precision scaling law that quantifies
performance trade-offs across varying bit-widths and allows us to identify a
"near-optimal" low-precision training technique in terms of
accuracy-vs-computation, called Quartet. We implement Quartet using optimized
CUDA kernels tailored for NVIDIA Blackwell GPUs, and show that it can achieve
state-of-the-art accuracy for FP4 precision, successfully training
billion-scale models. Our method demonstrates that fully FP4-based training is
a competitive alternative to standard-precision and FP8 training. Our code is
available at https://github.com/IST-DASLab/Quartet.Summary
AI-Generated Summary