ChatPaper.aiChatPaper

Metis: Обучение крупных языковых моделей с использованием продвинутого низкобитового квантования

Metis: Training Large Language Models with Advanced Low-Bit Quantization

August 30, 2025
Авторы: Hengjie Cao, Mengyi Chen, Yifeng Yang, Ruijun Huang, Fang Dong, Jixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Yuan Cheng, Fan Wu, Fan Yang, Tun Lu, Ning Gu, Li Shang
cs.AI

Аннотация

Данная работа выявляет анизотропные распределения параметров как фундаментальное препятствие для обучения крупных языковых моделей (LLM) с низкобитной квантизацией: несколько доминирующих сингулярных значений создают широкие числовые диапазоны, которые конфликтуют с присущим блочной квантизации смещением. Это смещение непропорционально сохраняет значения с высокой величиной, отбрасывая меньшие, что приводит к нестабильности обучения и низкой производительности модели. В работе представлен Metis — фреймворк для обучения, который объединяет (i) спектральное разложение со случайным вложением для эффективного разделения доминирующих и редких компонентов, сжимая широкие распределения в узкие диапазоны, подходящие для квантизации; (ii) адаптивные скорости обучения в спектральной области для усиления недостаточно представленных направлений и лучшего захвата разнообразных признаков, критически важных для производительности; и (iii) регуляризатор с двойным диапазоном, который совместно ограничивает числовую точность и распределение диапазона параметров, обеспечивая стабильное и несмещенное обучение с низкобитной квантизацией. С использованием Metis обучение с FP8 превосходит базовые показатели FP32, а обучение с FP4 достигает точности, сравнимой с FP32, прокладывая путь для устойчивого и масштабируемого обучения LLM при продвинутой низкобитной квантизации. Реализация кода для Metis доступна по адресу: https://github.com/typename-yyf/Metis-quantization.
English
This work identifies anisotropic parameter distributions as a fundamental barrier to training large language models (LLMs) with low-bit quantization: a few dominant singular values create wide numerical ranges that conflict with the inherent bias of block-wise quantization. This bias disproportionately preserves high-magnitude values while discarding smaller ones, causing training instability and low model performance. This work introduces Metis, a training framework that combines (i) spectral decomposition with random embedding to efficiently disentangle dominant from long-tail components, compressing broad distributions into quantization-friendly narrow ranges; (ii) adaptive learning rates in the spectral domain to amplify underrepresented directions and better capture diverse features critical for performance; and (iii) a dual-range regularizer that jointly constrains numerical precision and parameter range distribution, ensuring stable, unbiased low-bit training. With Metis, FP8 training surpasses FP32 baselines, and FP4 training achieves accuracy comparable to FP32, paving the way for robust and scalable LLM training under advanced low-bit quantization. The code implementation for Metis is available at: https://github.com/typename-yyf/Metis-quantization.
PDF31September 3, 2025