Переосмысление смещения сжатия в FP4-предобучении больших языковых моделей: геометрическое происхождение, системное влияние и рецепт UFP4

Аннотация

Обучение с использованием FP4 обещает существенное снижение затрат памяти и вычислений при предварительном обучении больших языковых моделей (LLM), однако текущие аппаратные тракты и рецепты FP4, включая системы класса NVIDIA Blackwell/Rubin и графические процессоры серии AMD MI350, по-прежнему ориентированы на элементы данных формата E2M1. В данном исследовании мы выявляем фундаментальное ограничение этого выбора: неоднородные форматы, такие как E2M1, по своей сути страдают от смещения сжатия (Shrinkage Bias) — систематической отрицательной ошибки округления, вызванной геометрической асимметрией их представимых сегментов. Мы показываем, что это смещение накапливается мультипликативно по слоям и усиливается случайным преобразованием Адамара (RHT), что дает единое объяснение нестабильности обучения, наблюдаемой в существующих рецептах FP4 на основе E2M1. Напротив, равномерные сетки (E1M2/INT4) обходят эту ошибку геометрии сетки и лучше преобразуют улучшенное использование сегментов, обеспечиваемое RHT, в более высокое качество квантования. Основываясь на этом открытии, мы предлагаем UFP4 — рецепт равномерного 4-битного обучения, который применяет RHT ко всем трем обучающим GEMM, ограничивая стохастическое округление только градиентом dY. При длительном предварительном обучении моделей Dense 1.5B, MoE 7.9B и MoE 124B UFP4 стабильно достигает меньшего относительного ухудшения потерь по сравнению с BF16, чем сильные базовые подходы на основе E2M1, что подтверждается анализом законов масштабирования и абляционными исследованиями. Наши результаты показывают, что будущие ускорители должны поддерживать равномерные 4-битные сетки типа E1M2/INT4 в качестве первоклассных примитивов обучения наряду с E2M1.

English

FP4 training promises substantial reductions in memory and computation cost for LLM pretraining, yet current FP4 hardware paths and recipes, including NVIDIA Blackwell/Rubin-class systems and AMD MI350-series GPUs, remain centered on E2M1 data elements. In this study, we identify a fundamental limitation of that choice: non-uniform formats such as E2M1 inherently suffer from Shrinkage Bias, a systematic negative rounding error caused by the geometric asymmetry of their representable bins. We show that this bias accumulates multiplicatively across layers and is amplified by the Random Hadamard Transform (RHT), providing a unified explanation for the training instability observed in existing E2M1-based FP4 recipes. In contrast, uniform grids (E1M2/INT4) bypass this grid-geometry error and better convert the improved bucket utilization from RHT into higher quantization quality. Based on this finding, we propose UFP4, a uniform 4-bit training recipe that applies RHT to all three training GEMMs while restricting stochastic rounding to dY alone. On Dense 1.5B, MoE 7.9B, and MoE 124B long-run pretraining, UFP4 consistently achieves lower BF16-relative loss degradation than strong E2M1-based baselines, supported by scaling-law analysis and ablation studies. Our results suggest that future accelerators should support E1M2/INT4-style uniform 4-bit grids as first-class training primitives alongside E2M1.