Strategie di Evoluzione Quantizzate: Ottimizzazione di Precisione Elevata per LLM Quantizzati a Costo di Precisione Ridotta

Abstract

La quantizzazione post-addestramento (PTQ) è essenziale per distribuire i grandi modelli linguistici (LLM) su dispositivi con memoria limitata, ma rende i modelli statici e difficili da affinare. I paradigmi standard di fine-tuning, incluso l'apprendimento per rinforzo (RL), si basano fondamentalmente sulla retropropagazione e su pesi ad alta precisione per calcolare i gradienti. Pertanto, non possono essere utilizzati su modelli quantizzati, dove lo spazio dei parametri è discreto e non differenziabile. Sebbene le strategie evolutive (ES) offrano un'alternativa senza retropropagazione, l'ottimizzazione dei parametri quantizzati può comunque fallire a causa di gradienti che svaniscono o sono inaccurati. Questo articolo introduce le Strategie Evolutive Quantizzate (QES), un paradigma di ottimizzazione che esegue il fine-tuning completo dei parametri direttamente nello spazio quantizzato. QES si basa su due innovazioni: (1) integra un feedback d'errore accumulato per preservare segnali di gradiente ad alta precisione, e (2) utilizza una ripetizione stateless del seed per ridurre l'utilizzo della memoria a livelli di inferenza a bassa precisione. QES supera significativamente lo stato dell'arte dei metodi di fine-tuning di ordine zero nei compiti di ragionamento aritmetico, rendendo possibile il fine-tuning diretto per modelli quantizzati. Aprì quindi la possibilità di scalare completamente gli LLM nello spazio quantizzato. Il codice sorgente è disponibile all'indirizzo https://github.com/dibbla/Quantized-Evolution-Strategies.

English

Post-Training Quantization (PTQ) is essential for deploying Large Language Models (LLMs) on memory-constrained devices, yet it renders models static and difficult to fine-tune. Standard fine-tuning paradigms, including Reinforcement Learning (RL), fundamentally rely on backpropagation and high-precision weights to compute gradients. Thus they cannot be used on quantized models, where the parameter space is discrete and non-differentiable. While Evolution Strategies (ES) offer a backpropagation-free alternative, optimization of the quantized parameters can still fail due to vanishing or inaccurate gradient. This paper introduces Quantized Evolution Strategies (QES), an optimization paradigm that performs full-parameter fine-tuning directly in the quantized space. QES is based on two innovations: (1) it integrates accumulated error feedback to preserve high-precision gradient signals, and (2) it utilizes a stateless seed replay to reduce memory usage to low-precision inference levels. QES significantly outperforms the state-of-the-art zeroth-order fine-tuning method on arithmetic reasoning tasks, making direct fine-tuning for quantized models possible. It therefore opens up the possibility for scaling up LLMs entirely in the quantized space. The source code is available at https://github.com/dibbla/Quantized-Evolution-Strategies .

Strategie di Evoluzione Quantizzate: Ottimizzazione di Precisione Elevata per LLM Quantizzati a Costo di Precisione Ridotta

Quantized Evolution Strategies: High-precision Fine-tuning of Quantized LLMs at Low-precision Cost

Abstract

Support