Metis: Training großer Sprachmodelle mit fortschrittlicher Low-Bit-Quantisierung
Metis: Training Large Language Models with Advanced Low-Bit Quantization
August 30, 2025
papers.authors: Hengjie Cao, Mengyi Chen, Yifeng Yang, Ruijun Huang, Fang Dong, Jixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Yuan Cheng, Fan Wu, Fan Yang, Tun Lu, Ning Gu, Li Shang
cs.AI
papers.abstract
Diese Arbeit identifiziert anisotrope Parameterverteilungen als eine grundlegende Barriere für das Training großer Sprachmodelle (LLMs) mit niedrigbitiger Quantisierung: Einige dominante Singulärwerte erzeugen breite numerische Bereiche, die mit der inhärenten Verzerrung der blockweisen Quantisierung in Konflikt stehen. Diese Verzerrung bewahrt überproportional hohe Werte, während kleinere Werte verworfen werden, was zu Trainingsinstabilität und geringer Modellleistung führt. Diese Arbeit stellt Metis vor, ein Trainingsframework, das (i) spektrale Zerlegung mit zufälliger Einbettung kombiniert, um dominante Komponenten effizient von langen Schwänzen zu trennen und breite Verteilungen in quantisierungsfreundliche enge Bereiche zu komprimieren; (ii) adaptive Lernraten im Spektralbereich verwendet, um unterrepräsentierte Richtungen zu verstärken und diverse, für die Leistung kritische Merkmale besser zu erfassen; und (iii) einen Dual-Range-Regularisierer einsetzt, der numerische Präzision und Parameterbereichsverteilung gemeinsam einschränkt, um stabiles, unverzerrtes Training mit niedriger Bitanzahl zu gewährleisten. Mit Metis übertrifft FP8-Training FP32-Baselines, und FP4-Training erreicht eine Genauigkeit, die mit FP32 vergleichbar ist, und ebnet den Weg für robustes und skalierbares LLM-Training unter fortgeschrittener niedrigbitiger Quantisierung. Die Code-Implementierung für Metis ist verfügbar unter: https://github.com/typename-yyf/Metis-quantization.
English
This work identifies anisotropic parameter distributions as a fundamental
barrier to training large language models (LLMs) with low-bit quantization: a
few dominant singular values create wide numerical ranges that conflict with
the inherent bias of block-wise quantization. This bias disproportionately
preserves high-magnitude values while discarding smaller ones, causing training
instability and low model performance. This work introduces Metis, a training
framework that combines (i) spectral decomposition with random embedding to
efficiently disentangle dominant from long-tail components, compressing broad
distributions into quantization-friendly narrow ranges; (ii) adaptive learning
rates in the spectral domain to amplify underrepresented directions and better
capture diverse features critical for performance; and (iii) a dual-range
regularizer that jointly constrains numerical precision and parameter range
distribution, ensuring stable, unbiased low-bit training. With Metis, FP8
training surpasses FP32 baselines, and FP4 training achieves accuracy
comparable to FP32, paving the way for robust and scalable LLM training under
advanced low-bit quantization. The code implementation for Metis is available
at: https://github.com/typename-yyf/Metis-quantization.