ECO: Quantifiziertes Training ohne Master-Gewichte in voller Präzision
ECO: Quantized Training without Full-Precision Master Weights
January 29, 2026
papers.authors: Mahdi Nikdan, Amir Zandieh, Dan Alistarh, Vahab Mirrokni
cs.AI
papers.abstract
Quantisierung hat die Rechen- und Speichereffizienz beim Training großer Sprachmodelle (LLMs) erheblich verbessert. Bestehende Ansätze müssen ihre Aktualisierungen jedoch weiterhin in hoher Präzision akkumulieren: Konkret müssen Gradientenupdates auf einen Hochpräzisions-Gewichtspuffer, sogenannte Master-Weights, angewendet werden. Dieser Puffer verursacht einen erheblichen Speichermehraufwand, insbesondere bei Sparse Mixture of Experts (SMoE)-Modellen, bei denen Modellparameter und Optimiererzustände den Speicherverbrauch dominieren. Um dies zu lösen, führen wir den Error-Compensating Optimizer (ECO) ein, der Master-Weights eliminiert, indem er Aktualisierungen direkt auf quantisierte Parameter anwendet. ECO quantisiert die Gewichte nach jedem Schritt und injiziert den resultierenden Quantisierungsfehler sorgfältig in den Optimierer-Momentum-Term, wodurch eine Fehlerrückkopplungsschleife ohne zusätzlichen Speicherbedarf entsteht. Wir beweisen, dass ECO unter Standardannahmen und einer abklingenden Lernrate gegen eine Nachbarschaft mit konstantem Radius um das Optimum konvergiert, während eine naive Entfernung der Master-Weights zu einem Fehler führen kann, der umgekehrt proportional zur Lernrate ist. Wir präsentieren empirische Ergebnisse für das Pre-Training kleiner Transformer (30-800M), eines Gemma-3-1B-Modells und eines SMoE-Modells mit 2,1B Parametern unter FP8-Quantisierung sowie für das Fine-Tuning von DeepSeek-MoE-16B in INT4-Präzision. Durchgängig erreicht ECO die Genauigkeit der Baseline mit Master-Weights bis nahezu verlustfrei und verschiebt die Pareto-Front für statischen Speicherverbrauch gegenüber Validierungsverlust signifikant.
English
Quantization has significantly improved the compute and memory efficiency of Large Language Model (LLM) training. However, existing approaches still rely on accumulating their updates in high-precision: concretely, gradient updates must be applied to a high-precision weight buffer, known as master weights. This buffer introduces substantial memory overhead, particularly for Sparse Mixture of Experts (SMoE) models, where model parameters and optimizer states dominate memory usage. To address this, we introduce the Error-Compensating Optimizer (ECO), which eliminates master weights by applying updates directly to quantized parameters. ECO quantizes weights after each step and carefully injects the resulting quantization error into the optimizer momentum, forming an error-feedback loop with no additional memory. We prove that, under standard assumptions and a decaying learning rate, ECO converges to a constant-radius neighborhood of the optimum, while naive master-weight removal can incur an error that is inversely proportional to the learning rate. We show empirical results for pretraining small Transformers (30-800M), a Gemma-3 1B model, and a 2.1B parameter Sparse MoE model with FP8 quantization, and fine-tuning DeepSeek-MoE-16B in INT4 precision. Throughout, ECO matches baselines with master weights up to near-lossless accuracy, significantly shifting the static memory vs validation loss Pareto frontier.