Gekwantiseerde Evolutiestrategieën: Nauwkeurige Afstemming van Gekwantiseerde LLM's tegen Lage Precisiekosten

Samenvatting

Post-training-kwantisering (PTQ) is essentieel voor het implementeren van grote taalmodellen (LLM's) op apparaten met beperkt geheugen, maar het maakt modellen statisch en moeilijk af te stemmen. Standaard afstemmingsparadigma's, waaronder reinforcement learning (RL), zijn fundamenteel afhankelijk van backpropagatie en gewichten met hoge precisie om gradiënten te berekenen. Daarom kunnen ze niet worden gebruikt op gekwantiseerde modellen, waar de parameterruimte discreet en niet-differentieerbaar is. Hoewel evolutionaire strategieën (ES) een backpropagatie-vrij alternatief bieden, kan de optimalisatie van de gekwantiseerde parameters toch mislukken door vervagende of onnauwkeurige gradiënten. Dit artikel introduceert Gekwantiseerde Evolutionaire Strategieën (QES), een optimalisatieparadigma dat afstemming van alle parameters direct in de gekwantiseerde ruimte uitvoert. QES is gebaseerd op twee innovaties: (1) het integreert geaccumuleerde foutfeedback om gradientensignalen met hoge precisie te behouden, en (2) het gebruikt een stateless seed replay om het geheugengebruik te reduceren tot het niveau van inferentie met lage precisie. QES presteert aanzienlijk beter dan de state-of-the-art zeroth-order afstemmingsmethode voor rekenkundige redeneertaken, waardoor directe afstemming voor gekwantiseerde modellen mogelijk wordt. Het opent daarmee de mogelijkheid om LLM's volledig in de gekwantiseerde ruimte op te schalen. De broncode is beschikbaar op https://github.com/dibbla/Quantized-Evolution-Strategies.

English

Post-Training Quantization (PTQ) is essential for deploying Large Language Models (LLMs) on memory-constrained devices, yet it renders models static and difficult to fine-tune. Standard fine-tuning paradigms, including Reinforcement Learning (RL), fundamentally rely on backpropagation and high-precision weights to compute gradients. Thus they cannot be used on quantized models, where the parameter space is discrete and non-differentiable. While Evolution Strategies (ES) offer a backpropagation-free alternative, optimization of the quantized parameters can still fail due to vanishing or inaccurate gradient. This paper introduces Quantized Evolution Strategies (QES), an optimization paradigm that performs full-parameter fine-tuning directly in the quantized space. QES is based on two innovations: (1) it integrates accumulated error feedback to preserve high-precision gradient signals, and (2) it utilizes a stateless seed replay to reduce memory usage to low-precision inference levels. QES significantly outperforms the state-of-the-art zeroth-order fine-tuning method on arithmetic reasoning tasks, making direct fine-tuning for quantized models possible. It therefore opens up the possibility for scaling up LLMs entirely in the quantized space. The source code is available at https://github.com/dibbla/Quantized-Evolution-Strategies .

Gekwantiseerde Evolutiestrategieën: Nauwkeurige Afstemming van Gekwantiseerde LLM's tegen Lage Precisiekosten

Quantized Evolution Strategies: High-precision Fine-tuning of Quantized LLMs at Low-precision Cost

Samenvatting

Support