양자화 진화 전략: 저정밀도 비용으로 양자화된 대규모 언어 모델의 고정밀도 미세 조정
Quantized Evolution Strategies: High-precision Fine-tuning of Quantized LLMs at Low-precision Cost
February 3, 2026
저자: Yinggan Xu, Risto Miikkulainen, Xin Qiu
cs.AI
초록
훈련 후 양자화(PTQ)는 메모리 제약 장치에 대규모 언어 모델(LLM)을 배포하는 데 필수적이지만, 모델을 정적으로 만들어 미세 조정을 어렵게 만듭니다. 강화 학습(RL)을 포함한 표준 미세 조정 패러다임은 기본적으로 역전파와 높은 정밀도의 가중치에 기반하여 기울기를 계산합니다. 따라서 매개변수 공간이 이산적이고 미분 불가능한 양자화된 모델에는 적용할 수 없습니다. 진화 전략(ES)은 역전파가 필요 없는 대안을 제공하지만, 양자화된 매개변수의 최적화는 기울기의 소실 또는 부정확성으로 인해 실패할 수 있습니다. 본 논문은 양자화된 공간에서 직접 전체 매개변수 미세 조정을 수행하는 최적화 패러다임인 양자화 진화 전략(QES)을 소개합니다. QES는 두 가지 혁신에 기반합니다: (1) 높은 정밀도의 기울기 신호를 보존하기 위해 누적 오류 피드백을 통합하고, (2) 낮은 정밀도 추론 수준으로 메모리 사용량을 줄이기 위해 상태 비저장 시드 재생을 활용합니다. QES는 산술 추론 작업에서 최신 영차 미세 조정 방법을 크게 능가하여 양자화된 모델의 직접적인 미세 조정을 가능하게 합니다. 이는 양자화된 공간에서 완전히 LLM을 확장할 가능성을 열어줍니다. 소스 코드는 https://github.com/dibbla/Quantized-Evolution-Strategies 에서 확인할 수 있습니다.
English
Post-Training Quantization (PTQ) is essential for deploying Large Language Models (LLMs) on memory-constrained devices, yet it renders models static and difficult to fine-tune. Standard fine-tuning paradigms, including Reinforcement Learning (RL), fundamentally rely on backpropagation and high-precision weights to compute gradients. Thus they cannot be used on quantized models, where the parameter space is discrete and non-differentiable. While Evolution Strategies (ES) offer a backpropagation-free alternative, optimization of the quantized parameters can still fail due to vanishing or inaccurate gradient. This paper introduces Quantized Evolution Strategies (QES), an optimization paradigm that performs full-parameter fine-tuning directly in the quantized space. QES is based on two innovations: (1) it integrates accumulated error feedback to preserve high-precision gradient signals, and (2) it utilizes a stateless seed replay to reduce memory usage to low-precision inference levels. QES significantly outperforms the state-of-the-art zeroth-order fine-tuning method on arithmetic reasoning tasks, making direct fine-tuning for quantized models possible. It therefore opens up the possibility for scaling up LLMs entirely in the quantized space. The source code is available at https://github.com/dibbla/Quantized-Evolution-Strategies .