Stratégies d'évolution quantifiées : Réglage fin haute précision des LLM quantifiés au coût d'une faible précision
Quantized Evolution Strategies: High-precision Fine-tuning of Quantized LLMs at Low-precision Cost
February 3, 2026
papers.authors: Yinggan Xu, Risto Miikkulainen, Xin Qiu
cs.AI
papers.abstract
La quantification post-entraînement (PTQ) est essentielle pour déployer les grands modèles de langage (LLM) sur des appareils à mémoire limitée, mais elle rend les modèles statiques et difficiles à affiner. Les paradigmes standards de réglage fin, y compris l'apprentissage par renforcement (RL), reposent fondamentalement sur la rétropropagation et des poids en haute précision pour calculer les gradients. Ils ne peuvent donc pas être utilisés sur des modèles quantifiés, où l'espace des paramètres est discret et non différentiable. Bien que les stratégies d'évolution (ES) offrent une alternative sans rétropropagation, l'optimisation des paramètres quantifiés peut encore échouer en raison d'un gradient qui s'annule ou devient inexact. Cet article présente les Stratégies d'Évolution Quantifiées (QES), un paradigme d'optimisation qui effectue un réglage fin des paramètres complets directement dans l'espace quantifié. QES repose sur deux innovations : (1) elle intègre une rétroaction d'erreur accumulée pour préserver les signaux de gradient en haute précision, et (2) elle utilise une relecture de graine sans état pour réduire l'utilisation de la mémoire à des niveaux équivalents à l'inférence en basse précision. QES surpasse significativement la méthode de réglage fin d'ordre zéro la plus avancée sur les tâches de raisonnement arithmétique, rendant ainsi possible le réglage fin direct pour les modèles quantifiés. Elle ouvre par conséquent la possibilité de mettre à l'échelle les LLM entièrement dans l'espace quantifié. Le code source est disponible à l'adresse https://github.com/dibbla/Quantized-Evolution-Strategies.
English
Post-Training Quantization (PTQ) is essential for deploying Large Language Models (LLMs) on memory-constrained devices, yet it renders models static and difficult to fine-tune. Standard fine-tuning paradigms, including Reinforcement Learning (RL), fundamentally rely on backpropagation and high-precision weights to compute gradients. Thus they cannot be used on quantized models, where the parameter space is discrete and non-differentiable. While Evolution Strategies (ES) offer a backpropagation-free alternative, optimization of the quantized parameters can still fail due to vanishing or inaccurate gradient. This paper introduces Quantized Evolution Strategies (QES), an optimization paradigm that performs full-parameter fine-tuning directly in the quantized space. QES is based on two innovations: (1) it integrates accumulated error feedback to preserve high-precision gradient signals, and (2) it utilizes a stateless seed replay to reduce memory usage to low-precision inference levels. QES significantly outperforms the state-of-the-art zeroth-order fine-tuning method on arithmetic reasoning tasks, making direct fine-tuning for quantized models possible. It therefore opens up the possibility for scaling up LLMs entirely in the quantized space. The source code is available at https://github.com/dibbla/Quantized-Evolution-Strategies .