QuantLRM : Quantification des Grands Modèles de Raisonnement par Signaux de Réglage Fin

Résumé

La quantification par poids uniquement est essentielle pour la compression des grands modèles de langage (LLM). Inspirés par l'esprit de l'élagage classique par magnitude, nous étudions si l'amplitude des mises à jour des poids pendant le fine-tuning incitatif au raisonnement peut fournir des signaux précieux pour la quantification des grands modèles de raisonnement (LRM). Nous émettons l'hypothèse que les plus petites et les plus grandes mises à jour des poids pendant le fine-tuning sont plus importantes que celles de magnitude intermédiaire, un phénomène que nous nommons « protection des deux extrémités ». Après validation de l'hypothèse, nous introduisons QuantLRM, qui désigne la quantification par poids des LRM via les signaux de fine-tuning. Nous ajustons des fonctions quadratiques restreintes simples sur les mises à jour des poids pour protéger les deux extrémités. En multipliant les valeurs quadratiques moyennes par le nombre de mises à jour de poids nulles des canaux, nous calculons une importance de canal plus efficace que l'utilisation d'informations d'activation ou de second ordre. Nous exécutons QuantLRM pour quantifier divers modèles fine-tunés (incluant le fine-tuning supervisé, par optimisation directe des préférences et par apprentissage par renforcement) sur quatre benchmarks de raisonnement (AIME-120, FOLIO, séquences temporelles et GPQA-Diamond) et constatons empiriquement que QuantLRM apporte une amélioration constante pour la quantification des LRM, avec une amélioration moyenne de 6,55 % sur un modèle fine-tuné par apprentissage par renforcement. Prenant également en charge les LRM non fine-tunés, QuantLRM recueille des signaux efficaces via un pseudo-fine-tuning, ce qui améliore considérablement son applicabilité.

English

Weight-only quantization is important for compressing Large Language Models (LLMs). Inspired by the spirit of classical magnitude pruning, we study whether the magnitude of weight updates during reasoning-incentivized fine-tuning can provide valuable signals for quantizing Large Reasoning Models (LRMs). We hypothesize that the smallest and largest weight updates during fine-tuning are more important than those of intermediate magnitude, a phenomenon we term "protecting both ends". Upon hypothesis validation, we introduce QuantLRM, which stands for weight quantization of LRMs via fine-tuning signals. We fit simple restricted quadratic functions on weight updates to protect both ends. By multiplying the average quadratic values with the count of zero weight updates of channels, we compute channel importance that is more effective than using activation or second-order information. We run QuantLRM to quantize various fine-tuned models (including supervised, direct preference optimization, and reinforcement learning fine-tuning) over four reasoning benchmarks (AIME-120, FOLIO, temporal sequences, and GPQA-Diamond) and empirically find that QuantLRM delivers a consistent improvement for LRMs quantization, with an average improvement of 6.55% on a reinforcement learning fine-tuned model. Also supporting non-fine-tuned LRMs, QuantLRM gathers effective signals via pseudo-fine-tuning, which greatly enhances its applicability.

QuantLRM : Quantification des Grands Modèles de Raisonnement par Signaux de Réglage Fin

QuantLRM: Quantization of Large Reasoning Models via Fine-Tuning Signals

Résumé

Support