QuantLRM: Quantisierung großer Reasoning-Modelle mittels Feinabstimmungs-Signalen

Zusammenfassung

Gewichtsbasierte Quantisierung ist entscheidend für die Komprimierung großer Sprachmodelle (LLMs). Inspiriert vom Ansatz des klassischen Magnitude-Prunings untersuchen wir, ob die Größe der Gewichtsaktualisierungen während eines auf logisches Schließen ausgerichteten Fine-Tunings wertvolle Signale für die Quantisierung großer Schlussfolgerungsmodelle (LRMs) liefern kann. Wir stellen die Hypothese auf, dass die kleinsten und größten Gewichtsaktualisierungen während des Fine-Tunings wichtiger sind als jene mittlerer Größe – ein Phänomen, das wir als "Schutz der beiden Enden" bezeichnen. Nach der Hypothesenvalidierung führen wir QuantLRM ein, was für die Gewichtsquantisierung von LRMs mittels Fine-Tuning-Signalen steht. Wir passen einfache, eingeschränkte quadratische Funktionen an die Gewichtsaktualisierungen an, um die beiden Enden zu schützen. Durch Multiplikation der durchschnittlichen quadratischen Werte mit der Anzahl der Null-Gewichtsaktualisierungen pro Kanal berechnen wir eine Kanalebedeutung, die wirksamer ist als die Verwendung von Aktivierungs- oder Informationen zweiter Ordnung. Wir wenden QuantLRM an, um verschiedene feinabgestimmte Modelle (einschließlich supervised Fine-Tuning, Direct Preference Optimization und Reinforcement Learning Fine-Tuning) über vier Reasoning-Benchmarks (AIME-120, FOLIO, temporale Sequenzen und GPQA-Diamond) zu quantisieren, und stellen empirisch fest, dass QuantLRM eine konsistente Verbesserung für die LRM-Quantisierung liefert, mit einer durchschnittlichen Steigerung von 6,55 % bei einem reinforcement-learning-feingestimmten Modell. QuantLRM unterstützt auch nicht feinabgestimmte LRMs, indem es wirksame Signale durch Pseudo-Fine-Tuning sammelt, was seine Anwendbarkeit erheblich erweitert.

English

Weight-only quantization is important for compressing Large Language Models (LLMs). Inspired by the spirit of classical magnitude pruning, we study whether the magnitude of weight updates during reasoning-incentivized fine-tuning can provide valuable signals for quantizing Large Reasoning Models (LRMs). We hypothesize that the smallest and largest weight updates during fine-tuning are more important than those of intermediate magnitude, a phenomenon we term "protecting both ends". Upon hypothesis validation, we introduce QuantLRM, which stands for weight quantization of LRMs via fine-tuning signals. We fit simple restricted quadratic functions on weight updates to protect both ends. By multiplying the average quadratic values with the count of zero weight updates of channels, we compute channel importance that is more effective than using activation or second-order information. We run QuantLRM to quantize various fine-tuned models (including supervised, direct preference optimization, and reinforcement learning fine-tuning) over four reasoning benchmarks (AIME-120, FOLIO, temporal sequences, and GPQA-Diamond) and empirically find that QuantLRM delivers a consistent improvement for LRMs quantization, with an average improvement of 6.55% on a reinforcement learning fine-tuned model. Also supporting non-fine-tuned LRMs, QuantLRM gathers effective signals via pseudo-fine-tuning, which greatly enhances its applicability.

QuantLRM: Quantisierung großer Reasoning-Modelle mittels Feinabstimmungs-Signalen

QuantLRM: Quantization of Large Reasoning Models via Fine-Tuning Signals

Zusammenfassung

Support