QuantLRM: Cuantización de Modelos de Razonamiento Grandes mediante Señales de Ajuste Fino

Resumen

La cuantización solo de pesos es fundamental para comprimir Modelos de Lenguaje a Gran Escala (LLMs). Inspirados por el espíritu de la poda clásica por magnitud, investigamos si la magnitud de las actualizaciones de pesos durante el ajuste fino incentivado por razonamiento puede proporcionar señales valiosas para cuantizar Modelos de Razonamiento a Gran Escala (LRMs). Nuestra hipótesis postula que las actualizaciones de pesos más pequeñas y más grandes durante el ajuste fino son más importantes que aquellas de magnitud intermedia, un fenómeno que denominamos "protección de ambos extremos". Tras validar la hipótesis, presentamos QuantLRM, que significa cuantización de pesos de LRMs mediante señales de ajuste fino. Ajustamos funciones cuadráticas restringidas simples sobre las actualizaciones de pesos para proteger ambos extremos. Multiplicando los valores cuadráticos promedio por el recuento de actualizaciones de pesos cero de los canales, calculamos una importancia del canal que resulta más efectiva que utilizar información de activación o de segundo orden. Ejecutamos QuantLRM para cuantizar varios modelos ajustados (incluyendo ajuste supervisado, optimización directa de preferencias y ajuste fino por aprendizaje por refuerzo) en cuatro benchmarks de razonamiento (AIME-120, FOLIO, secuencias temporales y GPQA-Diamond) y encontramos empíricamente que QuantLRM ofrece una mejora consistente para la cuantización de LRMs, con una mejora promedio del 6.55% en un modelo ajustado mediante aprendizaje por refuerzo. QuantLRM también es compatible con LRMs no ajustados, obteniendo señales efectivas mediante un pseudo-ajuste fino, lo que aumenta enormemente su aplicabilidad.

English

Weight-only quantization is important for compressing Large Language Models (LLMs). Inspired by the spirit of classical magnitude pruning, we study whether the magnitude of weight updates during reasoning-incentivized fine-tuning can provide valuable signals for quantizing Large Reasoning Models (LRMs). We hypothesize that the smallest and largest weight updates during fine-tuning are more important than those of intermediate magnitude, a phenomenon we term "protecting both ends". Upon hypothesis validation, we introduce QuantLRM, which stands for weight quantization of LRMs via fine-tuning signals. We fit simple restricted quadratic functions on weight updates to protect both ends. By multiplying the average quadratic values with the count of zero weight updates of channels, we compute channel importance that is more effective than using activation or second-order information. We run QuantLRM to quantize various fine-tuned models (including supervised, direct preference optimization, and reinforcement learning fine-tuning) over four reasoning benchmarks (AIME-120, FOLIO, temporal sequences, and GPQA-Diamond) and empirically find that QuantLRM delivers a consistent improvement for LRMs quantization, with an average improvement of 6.55% on a reinforcement learning fine-tuned model. Also supporting non-fine-tuned LRMs, QuantLRM gathers effective signals via pseudo-fine-tuning, which greatly enhances its applicability.