ChatPaper.aiChatPaper

Estrategias de Evolución Cuantizadas: Ajuste Fino de Alta Precisión para LLMs Cuantizados con Costo de Baja Precisión

Quantized Evolution Strategies: High-precision Fine-tuning of Quantized LLMs at Low-precision Cost

February 3, 2026
Autores: Yinggan Xu, Risto Miikkulainen, Xin Qiu
cs.AI

Resumen

La cuantización post-entrenamiento (PTQ) es esencial para desplegar modelos de lenguaje grande (LLMs) en dispositivos con memoria limitada, pero vuelve a los modelos estáticos y difíciles de ajustar. Los paradigmas estándar de ajuste fino, incluido el aprendizaje por refuerzo (RL), dependen fundamentalmente de la retropropagación y pesos de alta precisión para calcular gradientes. Por lo tanto, no pueden utilizarse en modelos cuantizados, donde el espacio de parámetros es discreto y no diferenciable. Aunque las estrategias evolutivas (ES) ofrecen una alternativa libre de retropropagación, la optimización de los parámetros cuantizados aún puede fallar debido a gradientes que se desvanecen o son inexactos. Este artículo presenta las Estrategias Evolutivas Cuantizadas (QES), un paradigma de optimización que realiza el ajuste fino de parámetros completos directamente en el espacio cuantizado. QES se basa en dos innovaciones: (1) integra retroalimentación de error acumulado para preservar señales de gradiente de alta precisión, y (2) utiliza una reproducción de semilla sin estado para reducir el uso de memoria a niveles de inferencia de baja precisión. QES supera significativamente al método de ajuste fino de orden cero más avanzado en tareas de razonamiento aritmético, haciendo posible el ajuste fino directo para modelos cuantizados. Por lo tanto, abre la posibilidad de escalar LLMs completamente en el espacio cuantizado. El código fuente está disponible en https://github.com/dibbla/Quantized-Evolution-Strategies.
English
Post-Training Quantization (PTQ) is essential for deploying Large Language Models (LLMs) on memory-constrained devices, yet it renders models static and difficult to fine-tune. Standard fine-tuning paradigms, including Reinforcement Learning (RL), fundamentally rely on backpropagation and high-precision weights to compute gradients. Thus they cannot be used on quantized models, where the parameter space is discrete and non-differentiable. While Evolution Strategies (ES) offer a backpropagation-free alternative, optimization of the quantized parameters can still fail due to vanishing or inaccurate gradient. This paper introduces Quantized Evolution Strategies (QES), an optimization paradigm that performs full-parameter fine-tuning directly in the quantized space. QES is based on two innovations: (1) it integrates accumulated error feedback to preserve high-precision gradient signals, and (2) it utilizes a stateless seed replay to reduce memory usage to low-precision inference levels. QES significantly outperforms the state-of-the-art zeroth-order fine-tuning method on arithmetic reasoning tasks, making direct fine-tuning for quantized models possible. It therefore opens up the possibility for scaling up LLMs entirely in the quantized space. The source code is available at https://github.com/dibbla/Quantized-Evolution-Strategies .
PDF12February 17, 2026