ChatPaper.aiChatPaper

Metis: Grote Taalmodellen Trainen met Geavanceerde Laag-Bit Kwantisatie

Metis: Training Large Language Models with Advanced Low-Bit Quantization

August 30, 2025
Auteurs: Hengjie Cao, Mengyi Chen, Yifeng Yang, Ruijun Huang, Fang Dong, Jixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Yuan Cheng, Fan Wu, Fan Yang, Tun Lu, Ning Gu, Li Shang
cs.AI

Samenvatting

Dit werk identificeert anisotrope parameterverdelingen als een fundamentele barrière voor het trainen van grote taalmodel(len) (LLMs) met lage-bits kwantisering: enkele dominante singuliere waarden creëren brede numerieke bereiken die conflicteren met de inherente bias van bloksgewijze kwantisering. Deze bias behoudt onevenredig hoge-magnitudewaarden terwijl kleinere waarden worden weggegooid, wat leidt tot trainingsinstabiliteit en lage modelprestaties. Dit werk introduceert Metis, een trainingsframework dat combineert: (i) spectrale decompositie met willekeurige inbedding om efficiënt dominante componenten van lange-staartcomponenten te ontwarren, waardoor brede verdelingen worden gecomprimeerd tot kwantisatievriendelijke smalle bereiken; (ii) adaptieve leercurves in het spectrale domein om ondervertegenwoordigde richtingen te versterken en diverse kenmerken die cruciaal zijn voor prestaties beter vast te leggen; en (iii) een dual-range regularizer die gezamenlijk de numerieke precisie en parameterbereikverdeling beperkt, waardoor stabiele, onbevooroordeelde lage-bits training wordt gegarandeerd. Met Metis overtreft FP8-training FP32-baselines, en FP4-training bereikt nauwkeurigheid die vergelijkbaar is met FP32, wat de weg vrijmaakt voor robuuste en schaalbare LLM-training onder geavanceerde lage-bits kwantisering. De code-implementatie voor Metis is beschikbaar op: https://github.com/typename-yyf/Metis-quantization.
English
This work identifies anisotropic parameter distributions as a fundamental barrier to training large language models (LLMs) with low-bit quantization: a few dominant singular values create wide numerical ranges that conflict with the inherent bias of block-wise quantization. This bias disproportionately preserves high-magnitude values while discarding smaller ones, causing training instability and low model performance. This work introduces Metis, a training framework that combines (i) spectral decomposition with random embedding to efficiently disentangle dominant from long-tail components, compressing broad distributions into quantization-friendly narrow ranges; (ii) adaptive learning rates in the spectral domain to amplify underrepresented directions and better capture diverse features critical for performance; and (iii) a dual-range regularizer that jointly constrains numerical precision and parameter range distribution, ensuring stable, unbiased low-bit training. With Metis, FP8 training surpasses FP32 baselines, and FP4 training achieves accuracy comparable to FP32, paving the way for robust and scalable LLM training under advanced low-bit quantization. The code implementation for Metis is available at: https://github.com/typename-yyf/Metis-quantization.
PDF51September 3, 2025