Metis: Grote Taalmodellen Trainen met Geavanceerde Laag-Bit Kwantisatie

Samenvatting

Dit werk identificeert anisotrope parameterverdelingen als een fundamentele barrière voor het trainen van grote taalmodel(len) (LLMs) met lage-bits kwantisering: enkele dominante singuliere waarden creëren brede numerieke bereiken die conflicteren met de inherente bias van bloksgewijze kwantisering. Deze bias behoudt onevenredig hoge-magnitudewaarden terwijl kleinere waarden worden weggegooid, wat leidt tot trainingsinstabiliteit en lage modelprestaties. Dit werk introduceert Metis, een trainingsframework dat combineert: (i) spectrale decompositie met willekeurige inbedding om efficiënt dominante componenten van lange-staartcomponenten te ontwarren, waardoor brede verdelingen worden gecomprimeerd tot kwantisatievriendelijke smalle bereiken; (ii) adaptieve leercurves in het spectrale domein om ondervertegenwoordigde richtingen te versterken en diverse kenmerken die cruciaal zijn voor prestaties beter vast te leggen; en (iii) een dual-range regularizer die gezamenlijk de numerieke precisie en parameterbereikverdeling beperkt, waardoor stabiele, onbevooroordeelde lage-bits training wordt gegarandeerd. Met Metis overtreft FP8-training FP32-baselines, en FP4-training bereikt nauwkeurigheid die vergelijkbaar is met FP32, wat de weg vrijmaakt voor robuuste en schaalbare LLM-training onder geavanceerde lage-bits kwantisering. De code-implementatie voor Metis is beschikbaar op: https://github.com/typename-yyf/Metis-quantization.

English

This work identifies anisotropic parameter distributions as a fundamental barrier to training large language models (LLMs) with low-bit quantization: a few dominant singular values create wide numerical ranges that conflict with the inherent bias of block-wise quantization. This bias disproportionately preserves high-magnitude values while discarding smaller ones, causing training instability and low model performance. This work introduces Metis, a training framework that combines (i) spectral decomposition with random embedding to efficiently disentangle dominant from long-tail components, compressing broad distributions into quantization-friendly narrow ranges; (ii) adaptive learning rates in the spectral domain to amplify underrepresented directions and better capture diverse features critical for performance; and (iii) a dual-range regularizer that jointly constrains numerical precision and parameter range distribution, ensuring stable, unbiased low-bit training. With Metis, FP8 training surpasses FP32 baselines, and FP4 training achieves accuracy comparable to FP32, paving the way for robust and scalable LLM training under advanced low-bit quantization. The code implementation for Metis is available at: https://github.com/typename-yyf/Metis-quantization.

Metis: Grote Taalmodellen Trainen met Geavanceerde Laag-Bit Kwantisatie

Metis: Training Large Language Models with Advanced Low-Bit Quantization

Samenvatting

Support