QuantLRM: Quantização de Grandes Modelos de Raciocínio por meio de Sinais de Ajuste Fino

Resumo

A quantização apenas de pesos é importante para a compressão de Modelos de Língua de Grande Porte (LLMs). Inspirados pelo princípio da poda clássica por magnitude, investigamos se a magnitude das atualizações de peso durante o fine-tuning voltado para raciocínio pode fornecer sinais valiosos para a quantização de Modelos de Raciocínio de Grande Porte (LRMs). Nossa hipótese é que as menores e maiores atualizações de peso durante o fine-tuning são mais importantes do que aquelas de magnitude intermediária, um fenômeno que denominamos "proteção de ambos os extremos". Após a validação da hipótese, introduzimos o QuantLRM, que significa quantização de pesos de LRMs por meio de sinais de fine-tuning. Ajustamos funções quadráticas restritas simples nas atualizações de peso para proteger ambos os extremos. Multiplicando os valores quadráticos médios pela contagem de atualizações de peso zero dos canais, calculamos a importância do canal, que se mostra mais eficaz do que o uso de informações de ativação ou de segunda ordem. Executamos o QuantLRM para quantizar vários modelos ajustados (incluindo fine-tuning supervisionado, de otimização de preferência direta e por aprendizagem por reforço) em quatro benchmarks de raciocínio (AIME-120, FOLIO, sequências temporais e GPQA-Diamond) e verificamos empiricamente que o QuantLRM proporciona uma melhoria consistente para a quantização de LRMs, com uma melhoria média de 6,55% em um modelo ajustado por aprendizagem por reforço. Suportando também LRMs não ajustados, o QuantLRM coleta sinais eficazes por meio de pseudo-fine-tuning, o que amplia significativamente sua aplicabilidade.

English

Weight-only quantization is important for compressing Large Language Models (LLMs). Inspired by the spirit of classical magnitude pruning, we study whether the magnitude of weight updates during reasoning-incentivized fine-tuning can provide valuable signals for quantizing Large Reasoning Models (LRMs). We hypothesize that the smallest and largest weight updates during fine-tuning are more important than those of intermediate magnitude, a phenomenon we term "protecting both ends". Upon hypothesis validation, we introduce QuantLRM, which stands for weight quantization of LRMs via fine-tuning signals. We fit simple restricted quadratic functions on weight updates to protect both ends. By multiplying the average quadratic values with the count of zero weight updates of channels, we compute channel importance that is more effective than using activation or second-order information. We run QuantLRM to quantize various fine-tuned models (including supervised, direct preference optimization, and reinforcement learning fine-tuning) over four reasoning benchmarks (AIME-120, FOLIO, temporal sequences, and GPQA-Diamond) and empirically find that QuantLRM delivers a consistent improvement for LRMs quantization, with an average improvement of 6.55% on a reinforcement learning fine-tuned model. Also supporting non-fine-tuned LRMs, QuantLRM gathers effective signals via pseudo-fine-tuning, which greatly enhances its applicability.

QuantLRM: Quantização de Grandes Modelos de Raciocínio por meio de Sinais de Ajuste Fino

QuantLRM: Quantization of Large Reasoning Models via Fine-Tuning Signals

Resumo

Support