Repensando el sesgo de contracción en el preentrenamiento FP4 de LLM: Origen geométrico, impacto sistémico y la receta UFP4

Resumen

El entrenamiento FP4 promete reducciones sustanciales en el costo de memoria y cómputo para el preentrenamiento de LLM, sin embargo, las rutas y recetas actuales de hardware FP4, incluidos los sistemas NVIDIA clase Blackwell/Rubin y las GPU AMD serie MI350, siguen centradas en elementos de datos E2M1. En este estudio, identificamos una limitación fundamental de esa elección: los formatos no uniformes como E2M1 sufren inherentemente del Sesgo de Contracción (Shrinkage Bias), un error de redondeo negativo sistemático causado por la asimetría geométrica de sus bins representables. Demostramos que este sesgo se acumula multiplicativamente a través de las capas y se amplifica mediante la Transformada Aleatoria de Hadamard (Random Hadamard Transform, RHT), proporcionando una explicación unificada para la inestabilidad de entrenamiento observada en las recetas FP4 basadas en E2M1 existentes. En contraste, las cuadrículas uniformes (E1M2/INT4) evitan este error de geometría de cuadrícula y convierten la mejora en la utilización de buckets de la RHT en una mayor calidad de cuantización. Basándonos en este hallazgo, proponemos UFP4, una receta de entrenamiento uniforme de 4 bits que aplica RHT a los tres GEMMs de entrenamiento, mientras restringe el redondeo estocástico únicamente a dY. En el preentrenamiento de larga duración con Dense 1.5B, MoE 7.9B y MoE 124B, UFP4 logra consistentemente una menor degradación de pérdida relativa a BF16 que los sólidos baselines basados en E2M1, respaldado por análisis de leyes de escalado y estudios de ablación. Nuestros resultados sugieren que los futuros aceleradores deberían soportar cuadrículas uniformes de 4 bits de estilo E1M2/INT4 como primitivas de entrenamiento de primera clase, junto con E2M1.

English

FP4 training promises substantial reductions in memory and computation cost for LLM pretraining, yet current FP4 hardware paths and recipes, including NVIDIA Blackwell/Rubin-class systems and AMD MI350-series GPUs, remain centered on E2M1 data elements. In this study, we identify a fundamental limitation of that choice: non-uniform formats such as E2M1 inherently suffer from Shrinkage Bias, a systematic negative rounding error caused by the geometric asymmetry of their representable bins. We show that this bias accumulates multiplicatively across layers and is amplified by the Random Hadamard Transform (RHT), providing a unified explanation for the training instability observed in existing E2M1-based FP4 recipes. In contrast, uniform grids (E1M2/INT4) bypass this grid-geometry error and better convert the improved bucket utilization from RHT into higher quantization quality. Based on this finding, we propose UFP4, a uniform 4-bit training recipe that applies RHT to all three training GEMMs while restricting stochastic rounding to dY alone. On Dense 1.5B, MoE 7.9B, and MoE 124B long-run pretraining, UFP4 consistently achieves lower BF16-relative loss degradation than strong E2M1-based baselines, supported by scaling-law analysis and ablation studies. Our results suggest that future accelerators should support E1M2/INT4-style uniform 4-bit grids as first-class training primitives alongside E2M1.