ЭКО: Квантованное обучение без полномасштабных эталонных весов
ECO: Quantized Training without Full-Precision Master Weights
January 29, 2026
Авторы: Mahdi Nikdan, Amir Zandieh, Dan Alistarh, Vahab Mirrokni
cs.AI
Аннотация
Квантование значительно повысило вычислительную эффективность и эффективность использования памяти при обучении больших языковых моделей (LLM). Однако существующие подходы по-прежнему требуют накопления обновлений в высокоточной арифметике: а именно, градиентные обновления должны применяться к буферу весов с высокой точностью, известному как мастер-веса. Этот буфер создает значительные накладные расходы по памяти, особенно для моделей с разреженной смесью экспертов (SMoE), где параметры модели и состояния оптимизатора доминируют в использовании памяти. Для решения этой проблемы мы представляем оптимизатор с компенсацией ошибок (ECO), который устраняет мастер-веса, применяя обновления непосредственно к квантованным параметрам. ECO квантует веса после каждого шага и тщательно вносит результирующую ошибку квантования в импульс оптимизатора, формируя петлю обратной связи по ошибке без дополнительного потребления памяти. Мы доказываем, что при стандартных предположениях и затухающей скорости обучения ECO сходится к окрестности оптимума с постоянным радиусом, в то время как наивное удаление мастер-весов может привести к ошибке, обратно пропорциональной скорости обучения. Мы представляем эмпирические результаты для предварительного обучения небольших трансформаторов (30-800M), модели Gemma-3 1B и модели SMoE с 2.1B параметров с квантованием FP8, а также для тонкой настройки DeepSeek-MoE-16B в точности INT4. Во всех экспериментах ECO соответствует базовым уровням с мастер-весами вплоть до практически безпотерьной точности, значительно смещая парето-фронталь между статической памятью и валидационной ошибкой.
English
Quantization has significantly improved the compute and memory efficiency of Large Language Model (LLM) training. However, existing approaches still rely on accumulating their updates in high-precision: concretely, gradient updates must be applied to a high-precision weight buffer, known as master weights. This buffer introduces substantial memory overhead, particularly for Sparse Mixture of Experts (SMoE) models, where model parameters and optimizer states dominate memory usage. To address this, we introduce the Error-Compensating Optimizer (ECO), which eliminates master weights by applying updates directly to quantized parameters. ECO quantizes weights after each step and carefully injects the resulting quantization error into the optimizer momentum, forming an error-feedback loop with no additional memory. We prove that, under standard assumptions and a decaying learning rate, ECO converges to a constant-radius neighborhood of the optimum, while naive master-weight removal can incur an error that is inversely proportional to the learning rate. We show empirical results for pretraining small Transformers (30-800M), a Gemma-3 1B model, and a 2.1B parameter Sparse MoE model with FP8 quantization, and fine-tuning DeepSeek-MoE-16B in INT4 precision. Throughout, ECO matches baselines with master weights up to near-lossless accuracy, significantly shifting the static memory vs validation loss Pareto frontier.