Estratégias de Evolução Quantizadas: Ajuste Fino de Alta Precisão de LLMs Quantizados com Custo de Baixa Precisão

Resumo

A Quantização Pós-Treinamento (QPT) é essencial para a implantação de Grandes Modelos de Linguagem (LLMs) em dispositivos com restrições de memória, no entanto, torna os modelos estáticos e difíceis de ajustar. Os paradigmas padrão de ajuste fino, incluindo o Aprendizado por Reforço (AR), dependem fundamentalmente da retropropagação e de pesos de alta precisão para calcular gradientes. Portanto, eles não podem ser usados em modelos quantizados, onde o espaço de parâmetros é discreto e não diferenciável. Embora as Estratégias Evolutivas (EE) ofereçam uma alternativa livre de retropropagação, a otimização dos parâmetros quantizados ainda pode falhar devido ao desaparecimento ou imprecisão do gradiente. Este artigo introduz as Estratégias Evolutivas Quantizadas (EEQ), um paradigma de otimização que realiza o ajuste fino de todos os parâmetros diretamente no espaço quantizado. A EEQ é baseada em duas inovações: (1) integra um feedback de erro acumulado para preservar sinais de gradiente de alta precisão, e (2) utiliza uma repetição de sementes sem estado para reduzir o uso de memória aos níveis de inferência de baixa precisão. A EEQ supera significativamente o método state-of-the-art de ajuste fino de ordem zero em tarefas de raciocínio aritmético, tornando possível o ajuste fino direto para modelos quantizados. Ela abre, portanto, a possibilidade de escalar LLMs inteiramente no espaço quantizado. O código-fonte está disponível em https://github.com/dibbla/Quantized-Evolution-Strategies.

English

Post-Training Quantization (PTQ) is essential for deploying Large Language Models (LLMs) on memory-constrained devices, yet it renders models static and difficult to fine-tune. Standard fine-tuning paradigms, including Reinforcement Learning (RL), fundamentally rely on backpropagation and high-precision weights to compute gradients. Thus they cannot be used on quantized models, where the parameter space is discrete and non-differentiable. While Evolution Strategies (ES) offer a backpropagation-free alternative, optimization of the quantized parameters can still fail due to vanishing or inaccurate gradient. This paper introduces Quantized Evolution Strategies (QES), an optimization paradigm that performs full-parameter fine-tuning directly in the quantized space. QES is based on two innovations: (1) it integrates accumulated error feedback to preserve high-precision gradient signals, and (2) it utilizes a stateless seed replay to reduce memory usage to low-precision inference levels. QES significantly outperforms the state-of-the-art zeroth-order fine-tuning method on arithmetic reasoning tasks, making direct fine-tuning for quantized models possible. It therefore opens up the possibility for scaling up LLMs entirely in the quantized space. The source code is available at https://github.com/dibbla/Quantized-Evolution-Strategies .

Estratégias de Evolução Quantizadas: Ajuste Fino de Alta Precisão de LLMs Quantizados com Custo de Baixa Precisão

Quantized Evolution Strategies: High-precision Fine-tuning of Quantized LLMs at Low-precision Cost

Resumo

Support