Metis: Treinamento de Modelos de Linguagem de Grande Escala com Quantização Avançada de Baixos Bits
Metis: Training Large Language Models with Advanced Low-Bit Quantization
August 30, 2025
Autores: Hengjie Cao, Mengyi Chen, Yifeng Yang, Ruijun Huang, Fang Dong, Jixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Yuan Cheng, Fan Wu, Fan Yang, Tun Lu, Ning Gu, Li Shang
cs.AI
Resumo
Este trabalho identifica distribuições de parâmetros anisotrópicas como uma barreira fundamental para o treinamento de modelos de linguagem de grande escala (LLMs) com quantização de baixa precisão: alguns valores singulares dominantes criam intervalos numéricos amplos que entram em conflito com o viés inerente da quantização em blocos. Esse viés preserva desproporcionalmente valores de alta magnitude enquanto descarta os menores, causando instabilidade no treinamento e baixo desempenho do modelo. Este trabalho introduz Metis, um framework de treinamento que combina (i) decomposição espectral com incorporação aleatória para desentrelaçar eficientemente componentes dominantes da cauda longa, comprimindo distribuições amplas em intervalos estreitos adequados para quantização; (ii) taxas de aprendizado adaptativas no domínio espectral para amplificar direções sub-representadas e capturar melhor características diversas críticas para o desempenho; e (iii) um regularizador de duplo intervalo que restringe conjuntamente a precisão numérica e a distribuição do intervalo de parâmetros, garantindo um treinamento estável e imparcial com baixa precisão. Com Metis, o treinamento em FP8 supera as linhas de base em FP32, e o treinamento em FP4 alcança precisão comparável à FP32, abrindo caminho para o treinamento robusto e escalável de LLMs sob quantização avançada de baixa precisão. A implementação do código para Metis está disponível em: https://github.com/typename-yyf/Metis-quantization.
English
This work identifies anisotropic parameter distributions as a fundamental
barrier to training large language models (LLMs) with low-bit quantization: a
few dominant singular values create wide numerical ranges that conflict with
the inherent bias of block-wise quantization. This bias disproportionately
preserves high-magnitude values while discarding smaller ones, causing training
instability and low model performance. This work introduces Metis, a training
framework that combines (i) spectral decomposition with random embedding to
efficiently disentangle dominant from long-tail components, compressing broad
distributions into quantization-friendly narrow ranges; (ii) adaptive learning
rates in the spectral domain to amplify underrepresented directions and better
capture diverse features critical for performance; and (iii) a dual-range
regularizer that jointly constrains numerical precision and parameter range
distribution, ensuring stable, unbiased low-bit training. With Metis, FP8
training surpasses FP32 baselines, and FP4 training achieves accuracy
comparable to FP32, paving the way for robust and scalable LLM training under
advanced low-bit quantization. The code implementation for Metis is available
at: https://github.com/typename-yyf/Metis-quantization.