ECO: Treinamento Quantizado sem Pesos Mestres em Precisão Completa

Resumo

A quantização melhorou significativamente a eficiência computacional e de memória no treinamento de Grandes Modelos de Linguagem (LLMs). No entanto, as abordagens existentes ainda dependem da acumulação das suas atualizações em alta precisão: concretamente, as atualizações de gradiente devem ser aplicadas a um *buffer* de pesos de alta precisão, conhecidos como *master weights* (pesos mestres). Este *buffer* introduz uma sobrecarga substancial de memória, particularmente para modelos *Sparse Mixture of Experts* (SMoE - Mistura Esparsa de Especialistas), onde os parâmetros do modelo e os estados do otimizador dominam o uso de memória. Para resolver isto, introduzimos o *Error-Compensating Optimizer* (ECO - Otimizador com Compensação de Erro), que elimina os pesos mestres aplicando as atualizações diretamente aos parâmetros quantizados. O ECO quantiza os pesos após cada passo e injeta cuidadosamente o erro de quantização resultante no *momentum* do otimizador, formando um ciclo de retroalimentação de erro sem memória adicional. Provamos que, sob premissas padrão e uma taxa de aprendizagem decrescente, o ECO converge para uma vizinhança de raio constante do ótimo, enquanto a remoção ingênua dos pesos mestres pode incorrer num erro que é inversamente proporcional à taxa de aprendizagem. Apresentamos resultados empíricos para o pré-treino de pequenos *Transformers* (30-800M), um modelo Gemma-3 1B e um modelo SMoE de 2.1B de parâmetros com quantização FP8, e para o *fine-tuning* do DeepSeek-MoE-16B em precisão INT4. Em todos os casos, o ECO equipara-se às linhas de base que utilizam pesos mestres com uma precisão quase sem perdas, deslocando significativamente a fronteira de Pareto entre a memória estática e a perda de validação.

English

Quantization has significantly improved the compute and memory efficiency of Large Language Model (LLM) training. However, existing approaches still rely on accumulating their updates in high-precision: concretely, gradient updates must be applied to a high-precision weight buffer, known as master weights. This buffer introduces substantial memory overhead, particularly for Sparse Mixture of Experts (SMoE) models, where model parameters and optimizer states dominate memory usage. To address this, we introduce the Error-Compensating Optimizer (ECO), which eliminates master weights by applying updates directly to quantized parameters. ECO quantizes weights after each step and carefully injects the resulting quantization error into the optimizer momentum, forming an error-feedback loop with no additional memory. We prove that, under standard assumptions and a decaying learning rate, ECO converges to a constant-radius neighborhood of the optimum, while naive master-weight removal can incur an error that is inversely proportional to the learning rate. We show empirical results for pretraining small Transformers (30-800M), a Gemma-3 1B model, and a 2.1B parameter Sparse MoE model with FP8 quantization, and fine-tuning DeepSeek-MoE-16B in INT4 precision. Throughout, ECO matches baselines with master weights up to near-lossless accuracy, significantly shifting the static memory vs validation loss Pareto frontier.

ECO: Treinamento Quantizado sem Pesos Mestres em Precisão Completa

ECO: Quantized Training without Full-Precision Master Weights

Resumo

Support