Quarteto II: Pré-Treinamento Preciso de LLM em NVFP4 por meio de Estimativa de Gradiente Não Tendenciosa Aprimorada

Resumo

O formato de precisão reduzida NVFP4, suportado em hardware pelas GPUs NVIDIA Blackwell, promete permitir, pela primeira vez, o pré-treinamento totalmente quantizado de ponta a ponta de modelos massivos, como os LLMs. No entanto, os métodos de treinamento quantizado existentes ainda sacrificam parte da capacidade de representação deste formato em favor de uma estimativa de gradiente quantizado não enviesada mais precisa através do arredondamento estocástico (SR), perdendo precisão perceptível em relação ao treinamento padrão em FP16 e FP8. Neste artigo, melhoramos o estado da arte para treinamento quantizado em NVFP4 por meio de uma nova rotina de quantização não enviesada para formatos em microescala, denominada MS-EDEN, que possui um erro de quantização mais de 2x menor do que o SR. Integramo-la em um novo esquema de quantização totalmente em NVFP4 para camadas lineares, chamado Quartet II. Mostramos analiticamente que o Quartet II alcança uma estimativa de gradiente consistentemente melhor em todas as principais multiplicações de matrizes, tanto nas passagens diretas quanto nas retropropagações. Além disso, nossa proposta sinergiza bem com melhorias recentes de treinamento direcionadas especificamente ao NVFP4. Validamos ainda mais o Quartet II no treinamento de LLMs de ponta a ponta com até 1,9B de parâmetros em 38B de tokens. Fornecemos *kernels* para execução em GPUs NVIDIA Blackwell com aceleração de até 4,2x em relação ao BF16. Nosso código está disponível em https://github.com/IST-DASLab/Quartet-II.

English

The NVFP4 lower-precision format, supported in hardware by NVIDIA Blackwell GPUs, promises to allow, for the first time, end-to-end fully-quantized pre-training of massive models such as LLMs. Yet, existing quantized training methods still sacrifice some of the representation capacity of this format in favor of more accurate unbiased quantized gradient estimation by stochastic rounding (SR), losing noticeable accuracy relative to standard FP16 and FP8 training. In this paper, improve the state of the art for quantized training in NVFP4 via a novel unbiased quantization routine for micro-scaled formats, called MS-EDEN, that has more than 2x lower quantization error than SR. We integrate it into a novel fully-NVFP4 quantization scheme for linear layers, called Quartet II. We show analytically that Quartet II achieves consistently better gradient estimation across all major matrix multiplications, both on the forward and on the backward passes. In addition, our proposal synergizes well with recent training improvements aimed specifically at NVFP4. We further validate Quartet II on end-to-end LLM training with up to 1.9B parameters on 38B tokens. We provide kernels for execution on NVIDIA Blackwell GPUs with up to 4.2x speedup over BF16. Our code is available at https://github.com/IST-DASLab/Quartet-II .

Quarteto II: Pré-Treinamento Preciso de LLM em NVFP4 por meio de Estimativa de Gradiente Não Tendenciosa Aprimorada

Quartet II: Accurate LLM Pre-Training in NVFP4 by Improved Unbiased Gradient Estimation

Resumo

Support