Heroverweging van krimpbias in LLM FP4-pre-training: geometrische oorsprong, systemische impact en UFP4-recept

Samenvatting

FP4-training belooft aanzienlijke reducties in geheugen- en rekencost voor LLM-voorbereiding, maar de huidige FP4-hardwarepaden en -recepten, waaronder NVIDIA Blackwell/Rubin-klasse systemen en AMD MI350-serie GPU's, blijven gericht op E2M1-data-elementen. In deze studie identificeren we een fundamentele beperking van die keuze: niet-uniforme formaten zoals E2M1 lijden inherent aan krimpvertekening (Shrinkage Bias), een systematische negatieve afrondingsfout veroorzaakt door de geometrische asymmetrie van hun representeerbare bakken. We tonen aan dat deze vertekening multiplicatief over lagen accumuleert en wordt versterkt door de Random Hadamard Transform (RHT), wat een uniforme verklaring biedt voor de trainingsinstabiliteit die wordt waargenomen in bestaande E2M1-gebaseerde FP4-recepten. Daarentegen omzeilen uniforme roosters (E1M2/INT4) deze roostergeometriefout en zetten ze de verbeterde bakbenutting van RHT beter om in een hogere kwantisatiekwaliteit. Op basis van deze bevinding stellen we UFP4 voor, een uniform 4-bit trainingsrecept dat RHT toepast op alle drie de trainings-GEMM's, terwijl stochastisch afronden wordt beperkt tot alleen dY. Bij langdurige voorbereiding van Dense 1.5B, MoE 7.9B en MoE 124B behaalt UFP4 consequent een lagere BF16-relatieve verliesdegradatie dan sterke E2M1-gebaseerde basislijnen, ondersteund door schaalwetanalyse en ablatiestudies. Onze resultaten suggereren dat toekomstige versnellers E1M2/INT4-stijl uniforme 4-bit roosters als eersteklas trainingsprimitieven naast E2M1 moeten ondersteunen.

English

FP4 training promises substantial reductions in memory and computation cost for LLM pretraining, yet current FP4 hardware paths and recipes, including NVIDIA Blackwell/Rubin-class systems and AMD MI350-series GPUs, remain centered on E2M1 data elements. In this study, we identify a fundamental limitation of that choice: non-uniform formats such as E2M1 inherently suffer from Shrinkage Bias, a systematic negative rounding error caused by the geometric asymmetry of their representable bins. We show that this bias accumulates multiplicatively across layers and is amplified by the Random Hadamard Transform (RHT), providing a unified explanation for the training instability observed in existing E2M1-based FP4 recipes. In contrast, uniform grids (E1M2/INT4) bypass this grid-geometry error and better convert the improved bucket utilization from RHT into higher quantization quality. Based on this finding, we propose UFP4, a uniform 4-bit training recipe that applies RHT to all three training GEMMs while restricting stochastic rounding to dY alone. On Dense 1.5B, MoE 7.9B, and MoE 124B long-run pretraining, UFP4 consistently achieves lower BF16-relative loss degradation than strong E2M1-based baselines, supported by scaling-law analysis and ablation studies. Our results suggest that future accelerators should support E1M2/INT4-style uniform 4-bit grids as first-class training primitives alongside E2M1.