Repenser le biais de rétrécissement dans le pré-entraînement FP4 des LLM : origine géométrique, impact systémique et recette UFP4

Résumé

L'entraînement en FP4 promet des réductions substantielles des coûts mémoire et de calcul pour le pré-entraînement des LLM, pourtant les chemins et recettes matériels FP4 actuels, incluant les systèmes de classe Blackwell/Rubin de NVIDIA et les GPU de la série MI350 d'AMD, restent centrés sur les éléments de données E2M1. Dans cette étude, nous identifions une limitation fondamentale de ce choix : les formats non uniformes tels que E2M1 souffrent intrinsèquement d'un biais de rétrécissement (Shrinkage Bias), une erreur d'arrondi négative systématique causée par l'asymétrie géométrique de leurs intervalles représentables. Nous montrons que ce biais s'accumule de manière multiplicative à travers les couches et est amplifié par la Transformée de Hadamard aléatoire (RHT), fournissant une explication unifiée de l'instabilité d'entraînement observée dans les recettes FP4 existantes basées sur E2M1. En revanche, les grilles uniformes (E1M2/INT4) contournent cette erreur de géométrie de grille et convertissent mieux l'utilisation améliorée des compartiments issue de RHT en une qualité de quantification supérieure. Sur la base de cette constatation, nous proposons UFP4, une recette d'entraînement uniforme 4 bits qui applique RHT à toutes les trois opérations GEMM d'entraînement tout en limitant l'arrondi stochastique à dY seul. Sur le pré-entraînement long de Dense 1,5B, MoE 7,9B et MoE 124B, UFP4 atteint systématiquement une dégradation relative de la perte par rapport au BF16 plus faible que les références solides basées sur E2M1, soutenu par une analyse des lois de mise à l'échelle et des études d'ablation. Nos résultats suggèrent que les accélérateurs futurs devraient supporter les grilles uniformes 4 bits de style E1M2/INT4 comme primitives d'entraînement de première classe aux côtés de E2M1.

English

FP4 training promises substantial reductions in memory and computation cost for LLM pretraining, yet current FP4 hardware paths and recipes, including NVIDIA Blackwell/Rubin-class systems and AMD MI350-series GPUs, remain centered on E2M1 data elements. In this study, we identify a fundamental limitation of that choice: non-uniform formats such as E2M1 inherently suffer from Shrinkage Bias, a systematic negative rounding error caused by the geometric asymmetry of their representable bins. We show that this bias accumulates multiplicatively across layers and is amplified by the Random Hadamard Transform (RHT), providing a unified explanation for the training instability observed in existing E2M1-based FP4 recipes. In contrast, uniform grids (E1M2/INT4) bypass this grid-geometry error and better convert the improved bucket utilization from RHT into higher quantization quality. Based on this finding, we propose UFP4, a uniform 4-bit training recipe that applies RHT to all three training GEMMs while restricting stochastic rounding to dY alone. On Dense 1.5B, MoE 7.9B, and MoE 124B long-run pretraining, UFP4 consistently achieves lower BF16-relative loss degradation than strong E2M1-based baselines, supported by scaling-law analysis and ablation studies. Our results suggest that future accelerators should support E1M2/INT4-style uniform 4-bit grids as first-class training primitives alongside E2M1.