QuantLRM: Quantificazione dei Modelli di Ragionamento di Grande Dimensione mediante Segnali di Fine-Tuning

Abstract

La quantizzazione basata esclusivamente sui pesi è fondamentale per comprimere i Large Language Model (LLM). Ispirati dallo spirito della classica pruning per magnitudine, studiamo se l'entità degli aggiornamenti dei pesi durante il fine-tuning orientato al ragionamento possa fornire segnali utili per quantizzare i Large Reasoning Model (LRM). Ipotesizziamo che gli aggiornamenti di peso più piccoli e più grandi durante il fine-tuning siano più importanti di quelli di magnitudine intermedia, un fenomeno che definiamo "protezione di entrambi gli estremi". Dopo la validazione dell'ipotesi, introduciamo QuantLRM, che indica la quantizzazione dei pesi degli LRM tramite segnali di fine-tuning. Adattiamo semplici funzioni quadratiche ristrette sugli aggiornamenti dei pesi per proteggere entrambi gli estremi. Moltiplicando i valori quadratici medi con il conteggio degli aggiornamenti di peso nulli dei canali, calcoliamo l'importanza del canale, che risulta più efficace rispetto all'uso di informazioni di attivazione o del second'ordine. Eseguiamo QuantLRM per quantizzare vari modelli sottoposti a fine-tuning (incluso fine-tuning supervisionato, di ottimizzazione delle preferenze dirette e di apprendimento per rinforzo) su quattro benchmark di ragionamento (AIME-120, FOLIO, sequenze temporali e GPQA-Diamond) e riscontriamo empiricamente che QuantLRM fornisce un miglioramento consistente per la quantizzazione degli LRM, con un miglioramento medio del 6,55% su un modello con fine-tuning ad apprendimento per rinforzo. Supportando anche LRM non sottoposti a fine-tuning, QuantLRM raccoglie segnali efficaci tramite pseudo-fine-tuning, migliorandone notevolmente l'applicabilità.

English

Weight-only quantization is important for compressing Large Language Models (LLMs). Inspired by the spirit of classical magnitude pruning, we study whether the magnitude of weight updates during reasoning-incentivized fine-tuning can provide valuable signals for quantizing Large Reasoning Models (LRMs). We hypothesize that the smallest and largest weight updates during fine-tuning are more important than those of intermediate magnitude, a phenomenon we term "protecting both ends". Upon hypothesis validation, we introduce QuantLRM, which stands for weight quantization of LRMs via fine-tuning signals. We fit simple restricted quadratic functions on weight updates to protect both ends. By multiplying the average quadratic values with the count of zero weight updates of channels, we compute channel importance that is more effective than using activation or second-order information. We run QuantLRM to quantize various fine-tuned models (including supervised, direct preference optimization, and reinforcement learning fine-tuning) over four reasoning benchmarks (AIME-120, FOLIO, temporal sequences, and GPQA-Diamond) and empirically find that QuantLRM delivers a consistent improvement for LRMs quantization, with an average improvement of 6.55% on a reinforcement learning fine-tuned model. Also supporting non-fine-tuned LRMs, QuantLRM gathers effective signals via pseudo-fine-tuning, which greatly enhances its applicability.