ECO: Gekwantiseerde training zonder mastergewichten in volledige precisie

Samenvatting

Kwantisatie heeft de reken- en geheugenefficiëntie van de training van Large Language Models (LLM's) aanzienlijk verbeterd. Bestaande benaderingen zijn echter nog steeds afhankelijk van het accumuleren van hun updates in hoge precisie: concreet moeten gradient-updates worden toegepast op een gewichtsbuffer met hoge precisie, bekend als master weights. Deze buffer introduceert aanzienlijke geheugenoverhead, vooral voor Sparse Mixture of Experts (SMoE)-modellen, waar modelparameters en optimizer-states het geheugengebruik domineren. Om dit aan te pakken, introduceren we de Error-Compensating Optimizer (ECO), die master weights elimineert door updates rechtstreeks op gekwantiseerde parameters toe te passen. ECO kwantiseert de gewichten na elke stap en injecteert de resulterende kwantisatiefout zorgvuldig in de optimizer-momentum, waardoor een error-feedbackloop ontstaat zonder extra geheugen. We bewijzen dat, onder standaard aannames en een vervallend leertempo, ECO convergeert naar een constant-straal buurt van het optimum, terwijl een naïeve verwijdering van master weights een fout kan opleveren die omgekeerd evenredig is met het leertempo. We tonen empirische resultaten voor het pretrainen van kleine Transformers (30-800M), een Gemma-3 1B-model en een 2.1B parameter Sparse MoE-model met FP8-kwantisatie, en het finetunen van DeepSeek-MoE-16B in INT4-precisie. In alle gevallen evenaart ECO de baseline met master weights tot bijna verliesvrije nauwkeurigheid, waardoor de Pareto-grens voor statisch geheugen versus validatieverlies significant verschuift.

English

Quantization has significantly improved the compute and memory efficiency of Large Language Model (LLM) training. However, existing approaches still rely on accumulating their updates in high-precision: concretely, gradient updates must be applied to a high-precision weight buffer, known as master weights. This buffer introduces substantial memory overhead, particularly for Sparse Mixture of Experts (SMoE) models, where model parameters and optimizer states dominate memory usage. To address this, we introduce the Error-Compensating Optimizer (ECO), which eliminates master weights by applying updates directly to quantized parameters. ECO quantizes weights after each step and carefully injects the resulting quantization error into the optimizer momentum, forming an error-feedback loop with no additional memory. We prove that, under standard assumptions and a decaying learning rate, ECO converges to a constant-radius neighborhood of the optimum, while naive master-weight removal can incur an error that is inversely proportional to the learning rate. We show empirical results for pretraining small Transformers (30-800M), a Gemma-3 1B model, and a 2.1B parameter Sparse MoE model with FP8 quantization, and fine-tuning DeepSeek-MoE-16B in INT4 precision. Throughout, ECO matches baselines with master weights up to near-lossless accuracy, significantly shifting the static memory vs validation loss Pareto frontier.

ECO: Gekwantiseerde training zonder mastergewichten in volledige precisie

ECO: Quantized Training without Full-Precision Master Weights

Samenvatting

Support