ECO: Addestramento Quantizzato senza Pesi Master in Precisione Completa

Abstract

La quantizzazione ha migliorato significativamente l'efficienza computazionale e di memoria nell'addestramento dei Large Language Model (LLM). Tuttavia, gli approcci esistenti dipendono ancora dall'accumulare gli aggiornamenti in alta precisione: nello specifico, gli aggiornamenti del gradiente devono essere applicati a un buffer dei pesi in alta precisione, noto come master weights. Questo buffer introduce un sovraccarico di memoria sostanziale, specialmente per i modelli Sparse Mixture of Experts (SMoE), dove i parametri del modello e gli stati dell'ottimizzatore dominano l'utilizzo della memoria. Per affrontare questo problema, introduciamo l'Error-Compensating Optimizer (ECO), che elimina i master weights applicando gli aggiornamenti direttamente ai parametri quantizzati. ECO quantizza i pesi dopo ogni passo e inietta accuratamente l'errore di quantizzazione risultante nel momentum dell'ottimizzatore, formando un anello di retroazione dell'errore senza memoria aggiuntiva. Dimostriamo che, sotto ipotesi standard e un learning rate decrescente, ECO converge verso un intorno di raggio costante dell'ottimo, mentre la semplice rimozione dei master weights può comportare un errore inversamente proporzionale al learning rate. Presentiamo risultati empirici per il pre-addestramento di piccoli Transformer (30-800M), un modello Gemma-3 1B e un modello Sparse MoE da 2.1B parametri con quantizzazione FP8, e per il fine-tuning di DeepSeek-MoE-16B in precisione INT4. In tutti i casi, ECO eguaglia i baseline con master weights con un'accuratezza quasi senza perdite, spostando significativamente la frontiera di Pareto tra memoria statica e loss di validazione.

English

Quantization has significantly improved the compute and memory efficiency of Large Language Model (LLM) training. However, existing approaches still rely on accumulating their updates in high-precision: concretely, gradient updates must be applied to a high-precision weight buffer, known as master weights. This buffer introduces substantial memory overhead, particularly for Sparse Mixture of Experts (SMoE) models, where model parameters and optimizer states dominate memory usage. To address this, we introduce the Error-Compensating Optimizer (ECO), which eliminates master weights by applying updates directly to quantized parameters. ECO quantizes weights after each step and carefully injects the resulting quantization error into the optimizer momentum, forming an error-feedback loop with no additional memory. We prove that, under standard assumptions and a decaying learning rate, ECO converges to a constant-radius neighborhood of the optimum, while naive master-weight removal can incur an error that is inversely proportional to the learning rate. We show empirical results for pretraining small Transformers (30-800M), a Gemma-3 1B model, and a 2.1B parameter Sparse MoE model with FP8 quantization, and fine-tuning DeepSeek-MoE-16B in INT4 precision. Throughout, ECO matches baselines with master weights up to near-lossless accuracy, significantly shifting the static memory vs validation loss Pareto frontier.

ECO: Addestramento Quantizzato senza Pesi Master in Precisione Completa

ECO: Quantized Training without Full-Precision Master Weights

Abstract

Support