ECO: Entrenamiento Cuantizado sin Pesos Maestros en Precisión Completa

Resumen

La cuantización ha mejorado significativamente la eficiencia computacional y de memoria en el entrenamiento de Modelos de Lenguaje a Gran Escala (LLM). Sin embargo, los enfoques existentes aún dependen de acumular sus actualizaciones en alta precisión: concretamente, las actualizaciones de gradiente deben aplicarse a un búfer de pesos de alta precisión, conocidos como pesos maestros. Este búfer introduce una sobrecarga de memoria sustancial, particularmente para modelos de Mezcla Dispersa de Expertos (SMoE), donde los parámetros del modelo y los estados del optimizador dominan el uso de memoria. Para abordar esto, presentamos el Optimizador con Compensación de Error (ECO), que elimina los pesos maestros aplicando las actualizaciones directamente a los parámetros cuantizados. ECO cuantiza los pesos después de cada paso e inyecta cuidadosamente el error de cuantización resultante en el momento del optimizador, formando un bucle de retroalimentación de error sin memoria adicional. Demostramos que, bajo supuestos estándar y una tasa de aprendizaje decreciente, ECO converge a una vecindad de radio constante del óptimo, mientras que la eliminación ingenua de los pesos maestros puede incurrir en un error inversamente proporcional a la tasa de aprendizaje. Mostramos resultados empíricos para el preentrenamiento de pequeños Transformers (30-800M), un modelo Gemma-3 1B y un modelo SMoE de 2.1B parámetros con cuantización FP8, y el ajuste fino de DeepSeek-MoE-16B en precisión INT4. En todos los casos, ECO iguala los resultados de referencia que utilizan pesos maestros con una precisión casi sin pérdidas, desplazando significativamente la frontera de Pareto entre memoria estática y pérdida de validación.

English

Quantization has significantly improved the compute and memory efficiency of Large Language Model (LLM) training. However, existing approaches still rely on accumulating their updates in high-precision: concretely, gradient updates must be applied to a high-precision weight buffer, known as master weights. This buffer introduces substantial memory overhead, particularly for Sparse Mixture of Experts (SMoE) models, where model parameters and optimizer states dominate memory usage. To address this, we introduce the Error-Compensating Optimizer (ECO), which eliminates master weights by applying updates directly to quantized parameters. ECO quantizes weights after each step and carefully injects the resulting quantization error into the optimizer momentum, forming an error-feedback loop with no additional memory. We prove that, under standard assumptions and a decaying learning rate, ECO converges to a constant-radius neighborhood of the optimum, while naive master-weight removal can incur an error that is inversely proportional to the learning rate. We show empirical results for pretraining small Transformers (30-800M), a Gemma-3 1B model, and a 2.1B parameter Sparse MoE model with FP8 quantization, and fine-tuning DeepSeek-MoE-16B in INT4 precision. Throughout, ECO matches baselines with master weights up to near-lossless accuracy, significantly shifting the static memory vs validation loss Pareto frontier.

ECO: Entrenamiento Cuantizado sin Pesos Maestros en Precisión Completa

ECO: Quantized Training without Full-Precision Master Weights

Resumen

Support