ChatPaper.aiChatPaper

Quantisierte Evolutionsstrategien: Hochpräzise Feinabstimmung quantisierter LLMs zu Kosten niedriger Präzision

Quantized Evolution Strategies: High-precision Fine-tuning of Quantized LLMs at Low-precision Cost

February 3, 2026
papers.authors: Yinggan Xu, Risto Miikkulainen, Xin Qiu
cs.AI

papers.abstract

Quantisierung nach dem Training (Post-Training Quantization, PTQ) ist entscheidend für den Einsatz von Large Language Models (LLMs) auf speicherbeschränkten Geräten, macht Modelle jedoch statisch und schwer feinabstimmbar. Standard-Fine-Tuning-Paradigmen, einschließlich Reinforcement Learning (RL), basieren grundlegend auf Backpropagation und hochpräzisen Gewichtungen zur Gradientenberechnung. Daher können sie nicht auf quantisierte Modelle angewendet werden, deren Parameterraum diskret und nicht differenzierbar ist. Während Evolutionsstrategien (Evolution Strategies, ES) eine backpropagationsfreie Alternative bieten, kann die Optimierung der quantisierten Parameter dennoch aufgrund verschwindender oder ungenauer Gradienten scheitern. Dieses Papier stellt Quantized Evolution Strategies (QES) vor, ein Optimierungsparadigma, das eine Feinabstimmung aller Parameter direkt im quantisierten Raum durchführt. QES basiert auf zwei Innovationen: (1) Es integriert akkumulierte Fehlerrückmeldung, um hochpräzise Gradientensignale zu erhalten, und (2) es nutzt einen zustandslosen Seed-Replay, um den Speicherverbrauch auf Low-Precision-Inferenzniveau zu reduzieren. QES übertrifft die aktuellste Zero-Order-Fine-Tuning-Methode bei arithmetischen Denkaufgaben erheblich und ermöglicht so eine direkte Feinabstimmung für quantisierte Modelle. Es eröffnet damit die Möglichkeit, LLMs vollständig im quantisierten Raum zu skalieren. Der Quellcode ist verfügbar unter https://github.com/dibbla/Quantized-Evolution-Strategies.
English
Post-Training Quantization (PTQ) is essential for deploying Large Language Models (LLMs) on memory-constrained devices, yet it renders models static and difficult to fine-tune. Standard fine-tuning paradigms, including Reinforcement Learning (RL), fundamentally rely on backpropagation and high-precision weights to compute gradients. Thus they cannot be used on quantized models, where the parameter space is discrete and non-differentiable. While Evolution Strategies (ES) offer a backpropagation-free alternative, optimization of the quantized parameters can still fail due to vanishing or inaccurate gradient. This paper introduces Quantized Evolution Strategies (QES), an optimization paradigm that performs full-parameter fine-tuning directly in the quantized space. QES is based on two innovations: (1) it integrates accumulated error feedback to preserve high-precision gradient signals, and (2) it utilizes a stateless seed replay to reduce memory usage to low-precision inference levels. QES significantly outperforms the state-of-the-art zeroth-order fine-tuning method on arithmetic reasoning tasks, making direct fine-tuning for quantized models possible. It therefore opens up the possibility for scaling up LLMs entirely in the quantized space. The source code is available at https://github.com/dibbla/Quantized-Evolution-Strategies .
PDF12February 17, 2026