Квантованные эволюционные стратегии: высокоточная тонкая настройка квантованных больших языковых моделей по стоимости низкоточной точности
Quantized Evolution Strategies: High-precision Fine-tuning of Quantized LLMs at Low-precision Cost
February 3, 2026
Авторы: Yinggan Xu, Risto Miikkulainen, Xin Qiu
cs.AI
Аннотация
Квантование после обучения (PTQ) является ключевым для развертывания больших языковых моделей (LLM) на устройствах с ограниченной памятью, однако оно делает модели статичными и сложными для дообучения. Стандартные парадигмы дообучения, включая обучение с подкреплением (RL), фундаментально опираются на обратное распространение ошибки и веса высокой точности для вычисления градиентов. Следовательно, они неприменимы к квантованным моделям, где пространство параметров дискретно и недифференцируемо. Хотя эволюционные стратегии (ES) предлагают альтернативу, не требующую обратного распространения, оптимизация квантованных параметров все равно может терпеть неудачу из-за исчезающих или неточных градиентов. В данной статье представлены Квантованные Эволюционные Стратегии (QES) — парадигма оптимизации, которая выполняет дообучение всех параметров непосредственно в квантованном пространстве. QES основаны на двух нововведениях: (1) они интегрируют накопленную обратную связь по ошибке для сохранения градиентных сигналов высокой точности и (2) используют воспроизведение состояний без сохранения состояния (stateless seed replay) для снижения использования памяти до уровней, характерных для низкоточной логики вывода. QES значительно превосходят современный метод дообучения нулевого порядка на задачах арифметических рассуждений, делая прямое дообучение квантованных моделей возможным. Таким образом, это открывает возможность масштабирования LLM полностью в квантованном пространстве. Исходный код доступен по адресу https://github.com/dibbla/Quantized-Evolution-Strategies.
English
Post-Training Quantization (PTQ) is essential for deploying Large Language Models (LLMs) on memory-constrained devices, yet it renders models static and difficult to fine-tune. Standard fine-tuning paradigms, including Reinforcement Learning (RL), fundamentally rely on backpropagation and high-precision weights to compute gradients. Thus they cannot be used on quantized models, where the parameter space is discrete and non-differentiable. While Evolution Strategies (ES) offer a backpropagation-free alternative, optimization of the quantized parameters can still fail due to vanishing or inaccurate gradient. This paper introduces Quantized Evolution Strategies (QES), an optimization paradigm that performs full-parameter fine-tuning directly in the quantized space. QES is based on two innovations: (1) it integrates accumulated error feedback to preserve high-precision gradient signals, and (2) it utilizes a stateless seed replay to reduce memory usage to low-precision inference levels. QES significantly outperforms the state-of-the-art zeroth-order fine-tuning method on arithmetic reasoning tasks, making direct fine-tuning for quantized models possible. It therefore opens up the possibility for scaling up LLMs entirely in the quantized space. The source code is available at https://github.com/dibbla/Quantized-Evolution-Strategies .