La Maldición y la Bendición del Sesgo Medio en el Entrenamiento de LLM Cuantizados a FP4

Resumen

Los grandes modelos de lenguaje entrenados con lenguaje natural exhiben una anisotropía pronunciada: un pequeño número de direcciones concentra una energía desproporcionada, mientras que las dimensiones restantes forman una cola semántica amplia. En regímenes de entrenamiento de baja precisión (bajo número de bits), esta geometría se vuelve numéricamente inestable. Debido a que las escalas de cuantificación por bloques se determinan por las magnitudes elementales extremas, las direcciones dominantes expanden el rango dinámico, comprimiendo la variación semántica de cola larga en intervalos numéricos estrechos. Demostramos que esta inestabilidad está impulsada principalmente por un sesgo medio coherente de rango uno, que constituye el componente dominante de la anisotropía espectral en las representaciones de los LLM. Este componente medio emerge sistemáticamente a través de las capas y etapas de entrenamiento y representa la mayoría de las magnitudes de activación extremas, lo que lo convierte en el principal impulsor de la inflación del rango dinámico bajo baja precisión. Crucialmente, dado que la inestabilidad dominante es de rango uno, puede eliminarse mediante una simple operación de sustracción de la media a nivel de fuente. Este acondicionamiento centrado en el sesgo recupera la mayoría de los beneficios de estabilidad de los métodos espectrales basados en SVD, mientras que solo requiere operaciones de reducción y kernels de cuantificación estándar. Los resultados empíricos en el entrenamiento con FP4 (W4A4G4) muestran que la eliminación de la media reduce sustancialmente la brecha de pérdida con respecto a BF16 y restaura el rendimiento en tareas posteriores, proporcionando una ruta eficiente en hardware para un entrenamiento estable de LLM de baja precisión.

English

Large language models trained on natural language exhibit pronounced anisotropy: a small number of directions concentrate disproportionate energy, while the remaining dimensions form a broad semantic tail. In low-bit training regimes, this geometry becomes numerically unstable. Because blockwise quantization scales are determined by extreme elementwise magnitudes, dominant directions stretch the dynamic range, compressing long-tail semantic variation into narrow numerical bins. We show that this instability is primarily driven by a coherent rank-one mean bias, which constitutes the dominant component of spectral anisotropy in LLM representations. This mean component emerges systematically across layers and training stages and accounts for the majority of extreme activation magnitudes, making it the principal driver of dynamic-range inflation under low precision. Crucially, because the dominant instability is rank-one, it can be eliminated through a simple source-level mean-subtraction operation. This bias-centric conditioning recovers most of the stability benefits of SVD-based spectral methods while requiring only reduction operations and standard quantization kernels. Empirical results on FP4 (W4A4G4) training show that mean removal substantially narrows the loss gap to BF16 and restores downstream performance, providing a hardware-efficient path to stable low-bit LLM training.

La Maldición y la Bendición del Sesgo Medio en el Entrenamiento de LLM Cuantizados a FP4

The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

Resumen

Support