Repensando o Viés de Encolhimento no Pré-treinamento FP4 de LLMs: Origem Geométrica, Impacto Sistêmico e a Receita UFP4

Resumo

O treinamento FP4 promete reduções substanciais de memória e custo computacional para o pré-treinamento de LLMs, mas os atuais caminhos e receitas de hardware FP4, incluindo sistemas NVIDIA das classes Blackwell/Rubin e GPUs AMD da série MI350, permanecem centrados em elementos de dados E2M1. Neste estudo, identificamos uma limitação fundamental dessa escolha: formatos não uniformes, como E2M1, sofrem inerentemente de Viés de Encolhimento, um erro de arredondamento negativo sistemático causado pela assimetria geométrica de seus intervalos representáveis. Mostramos que esse viés se acumula multiplicativamente entre as camadas e é amplificado pela Transformada Aleatória de Hadamard (RHT), fornecendo uma explicação unificada para a instabilidade de treinamento observada em receitas FP4 existentes baseadas em E2M1. Em contraste, grades uniformes (E1M2/INT4) contornam esse erro de geometria de grade e convertem melhor a melhor utilização de intervalos proveniente da RHT em maior qualidade de quantização. Com base nessa descoberta, propomos o UFP4, uma receita de treinamento uniforme de 4 bits que aplica a RHT a todas as três GEMMs de treinamento, restringindo o arredondamento estocástico apenas ao dY. Em pré-treinamentos de longa duração para Dense 1,5B, MoE 7,9B e MoE 124B, o UFP4 atinge consistentemente uma degradação de perda relativa ao BF16 menor do que fortes linhas de base baseadas em E2M1, com suporte de análise de lei de escalonamento e estudos de ablação. Nossos resultados sugerem que futuros aceleradores devem suportar grades uniformes de 4 bits do tipo E1M2/INT4 como primitivas de treinamento de primeira classe, juntamente com E2M1.

English

FP4 training promises substantial reductions in memory and computation cost for LLM pretraining, yet current FP4 hardware paths and recipes, including NVIDIA Blackwell/Rubin-class systems and AMD MI350-series GPUs, remain centered on E2M1 data elements. In this study, we identify a fundamental limitation of that choice: non-uniform formats such as E2M1 inherently suffer from Shrinkage Bias, a systematic negative rounding error caused by the geometric asymmetry of their representable bins. We show that this bias accumulates multiplicatively across layers and is amplified by the Random Hadamard Transform (RHT), providing a unified explanation for the training instability observed in existing E2M1-based FP4 recipes. In contrast, uniform grids (E1M2/INT4) bypass this grid-geometry error and better convert the improved bucket utilization from RHT into higher quantization quality. Based on this finding, we propose UFP4, a uniform 4-bit training recipe that applies RHT to all three training GEMMs while restricting stochastic rounding to dY alone. On Dense 1.5B, MoE 7.9B, and MoE 124B long-run pretraining, UFP4 consistently achieves lower BF16-relative loss degradation than strong E2M1-based baselines, supported by scaling-law analysis and ablation studies. Our results suggest that future accelerators should support E1M2/INT4-style uniform 4-bit grids as first-class training primitives alongside E2M1.