Quartet: L'Addestramento Nativo in FP4 Può Essere Ottimale per i Modelli Linguistici di Grandi Dimensioni
Quartet: Native FP4 Training Can Be Optimal for Large Language Models
May 20, 2025
Autori: Roberto L. Castro, Andrei Panferov, Soroush Tabesh, Oliver Sieberling, Jiale Chen, Mahdi Nikdan, Saleh Ashkboos, Dan Alistarh
cs.AI
Abstract
Il rapido progresso dei modelli linguistici di grandi dimensioni (LLM) è stato accompagnato da aumenti senza precedenti nelle richieste computazionali, con i costi di addestramento per i modelli all'avanguardia che raddoppiano ogni pochi mesi. L'addestramento diretto dei modelli in aritmetica a bassa precisione offre una soluzione, migliorando sia la velocità computazionale che l'efficienza energetica. In particolare, la recente architettura Blackwell di NVIDIA facilita operazioni a precisione estremamente bassa, specificamente varianti FP4, promettendo guadagni sostanziali in termini di efficienza. Tuttavia, gli attuali algoritmi per l'addestramento di LLM in precisione FP4 affrontano un significativo degrado dell'accuratezza e spesso si affidano a soluzioni di ripiego a precisione mista. In questo articolo, indaghiamo sistematicamente l'addestramento FP4 supportato dall'hardware e introduciamo Quartet, un nuovo approccio che consente un addestramento FP4 accurato end-to-end con tutti i principali calcoli (ad esempio nei livelli lineari) eseguiti a bassa precisione. Attraverso valutazioni estensive su modelli di tipo Llama, riveliamo una nuova legge di scala a bassa precisione che quantifica i compromessi di prestazioni attraverso diverse larghezze di bit e ci permette di identificare una tecnica di addestramento a bassa precisione "quasi ottimale" in termini di accuratezza-vs-calcolo, chiamata Quartet. Implementiamo Quartet utilizzando kernel CUDA ottimizzati specifici per GPU NVIDIA Blackwell e dimostriamo che può raggiungere un'accuratezza all'avanguardia per la precisione FP4, addestrando con successo modelli su scala miliardi. Il nostro metodo dimostra che l'addestramento completamente basato su FP4 è un'alternativa competitiva rispetto all'addestramento a precisione standard e FP8. Il nostro codice è disponibile all'indirizzo https://github.com/IST-DASLab/Quartet.
English
The rapid advancement of large language models (LLMs) has been paralleled by
unprecedented increases in computational demands, with training costs for
state-of-the-art models doubling every few months. Training models directly in
low-precision arithmetic offers a solution, by improving both computational
throughput and energy efficiency. Specifically, NVIDIA's recent Blackwell
architecture facilitates extremely low-precision operations, specifically FP4
variants, promising substantial efficiency gains. Yet, current algorithms for
training LLMs in FP4 precision face significant accuracy degradation and often
rely on mixed-precision fallbacks. In this paper, we systematically investigate
hardware-supported FP4 training and introduce Quartet, a new approach enabling
accurate, end-to-end FP4 training with all the major computations (in e.g.
linear layers) being performed in low precision. Through extensive evaluations
on Llama-type models, we reveal a new low-precision scaling law that quantifies
performance trade-offs across varying bit-widths and allows us to identify a
"near-optimal" low-precision training technique in terms of
accuracy-vs-computation, called Quartet. We implement Quartet using optimized
CUDA kernels tailored for NVIDIA Blackwell GPUs, and show that it can achieve
state-of-the-art accuracy for FP4 precision, successfully training
billion-scale models. Our method demonstrates that fully FP4-based training is
a competitive alternative to standard-precision and FP8 training. Our code is
available at https://github.com/IST-DASLab/Quartet.