QuantLRM: Квантизация больших моделей рассуждений с использованием сигналов тонкой настройки

Аннотация

Квантование только весов (weight-only quantization) играет важную роль в сжатии больших языковых моделей (Large Language Models, LLMs). Вдохновленные идеей классического прореживания по величине (magnitude pruning), мы исследуем, могут ли величины обновлений весов в процессе тонкой настройки, направленной на развитие способностей к рассуждению (reasoning-incentivized fine-tuning), служить ценным сигналом для квантования больших моделей рассуждений (Large Reasoning Models, LRMs). Мы выдвигаем гипотезу, что наименьшие и наибольшие по величине обновления весов в ходе тонкой настройки более важны, чем обновления промежуточной величины — явление, которое мы называем «защитой обоих краёв» ("protecting both ends"). После подтверждения гипотезы мы представляем QuantLRM — метод квантования весов LRMs на основе сигналов тонкой настройки. Мы аппроксимируем величины обновлений весов простыми ограниченными квадратичными функциями, чтобы защитить оба края. Умножая средние квадратичные значения на количество нулевых обновлений весов в каналах, мы вычисляем важность каналов, которая оказывается более эффективной, чем использование информации об активациях или информации второго порядка. Мы применяем QuantLRM для квантования различных тонко настроенных моделей (включая модели с контролируемой тонкой настройкой, оптимизацией прямых предпочтений и тонкой настройкой с подкреплением) на четырёх тестовых наборах для проверки рассуждений (AIME-120, FOLIO, temporal sequences и GPQA-Diamond) и эмпирически устанавливаем, что QuantLRM обеспечивает стабильное улучшение при квантовании LRMs, со средним улучшением на 6.55% для модели, настроенной с подкреплением. QuantLRM также поддерживает LRMs, не прошедшие тонкую настройку, получая эффективные сигналы с помощью псевдо-тонкой настройки (pseudo-fine-tuning), что значительно расширяет область его применения.

English

Weight-only quantization is important for compressing Large Language Models (LLMs). Inspired by the spirit of classical magnitude pruning, we study whether the magnitude of weight updates during reasoning-incentivized fine-tuning can provide valuable signals for quantizing Large Reasoning Models (LRMs). We hypothesize that the smallest and largest weight updates during fine-tuning are more important than those of intermediate magnitude, a phenomenon we term "protecting both ends". Upon hypothesis validation, we introduce QuantLRM, which stands for weight quantization of LRMs via fine-tuning signals. We fit simple restricted quadratic functions on weight updates to protect both ends. By multiplying the average quadratic values with the count of zero weight updates of channels, we compute channel importance that is more effective than using activation or second-order information. We run QuantLRM to quantize various fine-tuned models (including supervised, direct preference optimization, and reinforcement learning fine-tuning) over four reasoning benchmarks (AIME-120, FOLIO, temporal sequences, and GPQA-Diamond) and empirically find that QuantLRM delivers a consistent improvement for LRMs quantization, with an average improvement of 6.55% on a reinforcement learning fine-tuned model. Also supporting non-fine-tuned LRMs, QuantLRM gathers effective signals via pseudo-fine-tuning, which greatly enhances its applicability.

QuantLRM: Квантизация больших моделей рассуждений с использованием сигналов тонкой настройки

QuantLRM: Quantization of Large Reasoning Models via Fine-Tuning Signals

Аннотация

Support