QuantLRM: 미세 조정 신호를 통한 대규모 추론 모델의 양자화
QuantLRM: Quantization of Large Reasoning Models via Fine-Tuning Signals
January 31, 2026
저자: Nan Zhang, Eugene Kwek, Yusen Zhang, Muyu Pan, Suhang Wang, Prasenjit Mitra, Rui Zhang
cs.AI
초록
가중치 전용 양자화는 대규모 언어 모델(LLM)을 압축하는 데 중요합니다. 기존의 크기 기반 가지치기 방법에서 영감을 받아, 우리는 추론 유인 미세 조정 과정에서 발생하는 가중치 업데이트의 크기가 대규모 추론 모델(LRM) 양자화에 유의미한 신호를 제공할 수 있는지 연구합니다. 우리는 미세 조정 중 가장 작고 가장 큰 가중치 업데이트가 중간 크기의 업데이트보다 더 중요하다는 가설을 세웠으며, 이를 "양극단 보호" 현상으로 명명합니다. 이 가설을 검증한 후, 미세 조정 신호를 통한 LRM의 가중치 양자화를 의미하는 QuantLRM을 제안합니다. 우리는 양극단을 보호하기 위해 가중치 업데이트에 간단한 제한 이차 함수를 적합시킵니다. 채널별 평균 이차 함수 값과 제로 가중치 업데이트 빈도를 곱하여 활성화나 2차 정보를 사용하는 것보다 더 효과적인 채널 중요도를 계산합니다. QuantLRM을 사용하여 다양한 미세 조정 모델(지도 학습, 직접 선호도 최적화, 강화 학습 미세 조정 포함)을 4개의 추론 벤치마크(AIME-120, FOLIO, 시간 순서, GPQA-Diamond)에서 양자화한 결과, QuantLRM이 LRM 양자화에 대해 일관된 성능 향상을 제공하며, 강화 학습 미세 조정 모델에서 평균 6.55%의 향상을 보였습니다. 또한 미세 조정되지 않은 LRM을 지원하기 위해 QuantLRM은 가상 미세 조정을 통해 효과적인 신호를 수집하여 적용성을 크게 확장합니다.
English
Weight-only quantization is important for compressing Large Language Models (LLMs). Inspired by the spirit of classical magnitude pruning, we study whether the magnitude of weight updates during reasoning-incentivized fine-tuning can provide valuable signals for quantizing Large Reasoning Models (LRMs). We hypothesize that the smallest and largest weight updates during fine-tuning are more important than those of intermediate magnitude, a phenomenon we term "protecting both ends". Upon hypothesis validation, we introduce QuantLRM, which stands for weight quantization of LRMs via fine-tuning signals. We fit simple restricted quadratic functions on weight updates to protect both ends. By multiplying the average quadratic values with the count of zero weight updates of channels, we compute channel importance that is more effective than using activation or second-order information. We run QuantLRM to quantize various fine-tuned models (including supervised, direct preference optimization, and reinforcement learning fine-tuning) over four reasoning benchmarks (AIME-120, FOLIO, temporal sequences, and GPQA-Diamond) and empirically find that QuantLRM delivers a consistent improvement for LRMs quantization, with an average improvement of 6.55% on a reinforcement learning fine-tuned model. Also supporting non-fine-tuned LRMs, QuantLRM gathers effective signals via pseudo-fine-tuning, which greatly enhances its applicability.