ECO : Entraînement quantifié sans poids maîtres en pleine précision

papers.abstract

La quantification a considérablement amélioré l'efficacité computationnelle et mémoire de l'entraînement des grands modèles de langage (LLM). Cependant, les approches existantes reposent toujours sur l'accumulation de leurs mises à jour en haute précision : concrètement, les mises à jour des gradients doivent être appliquées à un tampon de poids en haute précision, appelés poids maîtres. Ce tampon introduit une surcharge mémoire substantielle, particulièrement pour les modèles à mélange épars d'experts (SMoE), où les paramètres du modèle et les états de l'optimiseur dominent l'utilisation de la mémoire. Pour résoudre ce problème, nous présentons l'Optimiseur à Compensation d'Erreur (ECO), qui élimine les poids maîtres en appliquant les mises à jour directement aux paramètres quantifiés. ECO quantifie les poids après chaque étape et injecte soigneusement l'erreur de quantification résultante dans la dynamique de l'optimiseur, formant une boucle de rétroaction d'erreur sans mémoire supplémentaire. Nous prouvons que, sous des hypothèses standard et avec un taux d'apprentissage décroissant, ECO converge vers un voisinage de rayon constant de l'optimum, tandis qu'une suppression naïve des poids maîtres peut entraîner une erreur inversement proportionnelle au taux d'apprentissage. Nous présentons des résultats empiriques pour le pré-entraînement de petits Transformers (30-800M), d'un modèle Gemma-3 1B, et d'un modèle SMoE à 2,1B de paramètres avec quantification FP8, ainsi que pour le fine-tuning de DeepSeek-MoE-16B en précision INT4. Dans tous les cas, ECO atteint des performances équivalentes aux bases de référence utilisant des poids maîtres, avec une précision quasi sans perte, déplaçant significativement la frontière de Pareto entre la mémoire statique et la perte de validation.

English

Quantization has significantly improved the compute and memory efficiency of Large Language Model (LLM) training. However, existing approaches still rely on accumulating their updates in high-precision: concretely, gradient updates must be applied to a high-precision weight buffer, known as master weights. This buffer introduces substantial memory overhead, particularly for Sparse Mixture of Experts (SMoE) models, where model parameters and optimizer states dominate memory usage. To address this, we introduce the Error-Compensating Optimizer (ECO), which eliminates master weights by applying updates directly to quantized parameters. ECO quantizes weights after each step and carefully injects the resulting quantization error into the optimizer momentum, forming an error-feedback loop with no additional memory. We prove that, under standard assumptions and a decaying learning rate, ECO converges to a constant-radius neighborhood of the optimum, while naive master-weight removal can incur an error that is inversely proportional to the learning rate. We show empirical results for pretraining small Transformers (30-800M), a Gemma-3 1B model, and a 2.1B parameter Sparse MoE model with FP8 quantization, and fine-tuning DeepSeek-MoE-16B in INT4 precision. Throughout, ECO matches baselines with master weights up to near-lossless accuracy, significantly shifting the static memory vs validation loss Pareto frontier.

ECO : Entraînement quantifié sans poids maîtres en pleine précision

ECO: Quantized Training without Full-Precision Master Weights

papers.abstract

Support