Quarteto: Treinamento Nativo em FP4 Pode Ser Ideal para Modelos de Linguagem de Grande Escala

Resumo

O rápido avanço dos modelos de linguagem de grande escala (LLMs) tem sido acompanhado por aumentos sem precedentes nas demandas computacionais, com os custos de treinamento para modelos de última geração dobrando a cada poucos meses. Treinar modelos diretamente em aritmética de baixa precisão oferece uma solução, melhorando tanto a taxa de transferência computacional quanto a eficiência energética. Especificamente, a recente arquitetura Blackwell da NVIDIA facilita operações de precisão extremamente baixa, especificamente variantes FP4, prometendo ganhos substanciais de eficiência. No entanto, os algoritmos atuais para treinar LLMs em precisão FP4 enfrentam uma degradação significativa na precisão e frequentemente dependem de soluções de precisão mista. Neste artigo, investigamos sistematicamente o treinamento em FP4 suportado por hardware e introduzimos o Quartet, uma nova abordagem que permite o treinamento preciso e de ponta a ponta em FP4, com todos os principais cálculos (por exemplo, em camadas lineares) sendo realizados em baixa precisão. Por meio de avaliações extensas em modelos do tipo Llama, revelamos uma nova lei de escalonamento de baixa precisão que quantifica as compensações de desempenho em várias larguras de bits e nos permite identificar uma técnica de treinamento de baixa precisão "quase ótima" em termos de precisão versus computação, chamada Quartet. Implementamos o Quartet usando kernels CUDA otimizados para GPUs NVIDIA Blackwell e mostramos que ele pode alcançar precisão de última geração para precisão FP4, treinando com sucesso modelos em escala de bilhões. Nosso método demonstra que o treinamento totalmente baseado em FP4 é uma alternativa competitiva ao treinamento em precisão padrão e FP8. Nosso código está disponível em https://github.com/IST-DASLab/Quartet.

English

The rapid advancement of large language models (LLMs) has been paralleled by unprecedented increases in computational demands, with training costs for state-of-the-art models doubling every few months. Training models directly in low-precision arithmetic offers a solution, by improving both computational throughput and energy efficiency. Specifically, NVIDIA's recent Blackwell architecture facilitates extremely low-precision operations, specifically FP4 variants, promising substantial efficiency gains. Yet, current algorithms for training LLMs in FP4 precision face significant accuracy degradation and often rely on mixed-precision fallbacks. In this paper, we systematically investigate hardware-supported FP4 training and introduce Quartet, a new approach enabling accurate, end-to-end FP4 training with all the major computations (in e.g. linear layers) being performed in low precision. Through extensive evaluations on Llama-type models, we reveal a new low-precision scaling law that quantifies performance trade-offs across varying bit-widths and allows us to identify a "near-optimal" low-precision training technique in terms of accuracy-vs-computation, called Quartet. We implement Quartet using optimized CUDA kernels tailored for NVIDIA Blackwell GPUs, and show that it can achieve state-of-the-art accuracy for FP4 precision, successfully training billion-scale models. Our method demonstrates that fully FP4-based training is a competitive alternative to standard-precision and FP8 training. Our code is available at https://github.com/IST-DASLab/Quartet.

Quarteto: Treinamento Nativo em FP4 Pode Ser Ideal para Modelos de Linguagem de Grande Escala

Quartet: Native FP4 Training Can Be Optimal for Large Language Models

Resumo

Support