ChatPaper.aiChatPaper

量子化進化戦略:低精度コストでの量子化大規模言語モデルに対する高精度ファインチューニング

Quantized Evolution Strategies: High-precision Fine-tuning of Quantized LLMs at Low-precision Cost

February 3, 2026
著者: Yinggan Xu, Risto Miikkulainen, Xin Qiu
cs.AI

要旨

ポストトレーニング量子化(PTQ)は、メモリ制約のあるデバイスに大規模言語モデル(LLM)を展開するために不可欠であるが、モデルを静的にし、ファインチューニングを困難にする。強化学習(RL)を含む標準的なファインチューニング手法は、本質的に逆伝播と高精度な重みに依存して勾配を計算する。したがって、パラメータ空間が離散的かつ非微分可能である量子化モデルには適用できない。進化戦略(ES)は逆伝播を必要としない代替手法を提供するが、量子化パラメータの最適化は、勾配の消失や不正確さにより依然として失敗する可能性がある。本論文では、量子化空間内で直接全パラメータのファインチューニングを実行する最適化手法である、量子化進化戦略(QES)を提案する。QESは二つの革新に基づいている:(1)高精度の勾配信号を保持するための積分誤差フィードバックを組み込み、(2)メモリ使用量を低精度推論レベルに削減するためのステートレスシードリプレイを利用する。QESは、算術推論タスクにおいて既存のゼロ次ファインチューニング手法を大幅に上回り、量子化モデルのための直接的なファインチューニングを可能にする。これにより、量子化空間内でのLLMの完全なスケールアップの可能性が開かれる。ソースコードはhttps://github.com/dibbla/Quantized-Evolution-Strategies で公開されている。
English
Post-Training Quantization (PTQ) is essential for deploying Large Language Models (LLMs) on memory-constrained devices, yet it renders models static and difficult to fine-tune. Standard fine-tuning paradigms, including Reinforcement Learning (RL), fundamentally rely on backpropagation and high-precision weights to compute gradients. Thus they cannot be used on quantized models, where the parameter space is discrete and non-differentiable. While Evolution Strategies (ES) offer a backpropagation-free alternative, optimization of the quantized parameters can still fail due to vanishing or inaccurate gradient. This paper introduces Quantized Evolution Strategies (QES), an optimization paradigm that performs full-parameter fine-tuning directly in the quantized space. QES is based on two innovations: (1) it integrates accumulated error feedback to preserve high-precision gradient signals, and (2) it utilizes a stateless seed replay to reduce memory usage to low-precision inference levels. QES significantly outperforms the state-of-the-art zeroth-order fine-tuning method on arithmetic reasoning tasks, making direct fine-tuning for quantized models possible. It therefore opens up the possibility for scaling up LLMs entirely in the quantized space. The source code is available at https://github.com/dibbla/Quantized-Evolution-Strategies .
PDF12February 17, 2026