Compresión de Rutas de Razonamiento: Comprimiendo Trayectorias de Generación para un Razonamiento Eficiente en Modelos de Lenguaje de Gran Escala

Resumen

Los modelos de lenguaje recientes centrados en razonamiento logran una alta precisión generando extensas trayectorias de razonamiento intermedias antes de producir respuestas finales. Si bien este enfoque es efectivo para resolver problemas que requieren pensamiento lógico, las trayectorias de razonamiento largas aumentan significativamente el uso de memoria y el rendimiento en la generación de tokens, limitando el despliegue práctico de dichos modelos. Proponemos Compresión de Trayectorias de Razonamiento (RPC, por sus siglas en inglés), un método sin entrenamiento que acelera la inferencia aprovechando la escasez semántica de las trayectorias de razonamiento. RPC comprime periódicamente la caché KV reteniendo las entradas de la caché KV que reciben una puntuación de importancia alta, la cual se calcula utilizando una ventana selectora compuesta por consultas generadas recientemente. Los experimentos muestran que RPC mejora el rendimiento de generación de QwQ-32B hasta 1.60 veces en comparación con la inferencia utilizando la caché KV completa, con una disminución de precisión del 1.2% en el benchmark AIME 2024. Nuestros hallazgos demuestran que la escasez semántica en las trazas de razonamiento puede explotarse eficazmente para la compresión, ofreciendo una vía práctica hacia el despliegue eficiente de modelos de lenguaje de razonamiento (LLMs). Nuestro código está disponible en https://github.com/jiwonsong-dev/ReasoningPathCompression.

English

Recent reasoning-focused language models achieve high accuracy by generating lengthy intermediate reasoning paths before producing final answers. While this approach is effective in solving problems that require logical thinking, long reasoning paths significantly increase memory usage and throughput of token generation, limiting the practical deployment of such models. We propose Reasoning Path Compression (RPC), a training-free method that accelerates inference by leveraging the semantic sparsity of reasoning paths. RPC periodically compresses the KV cache by retaining KV cache that receive high importance score, which are computed using a selector window composed of recently generated queries. Experiments show that RPC improves generation throughput of QwQ-32B by up to 1.60times compared to the inference with full KV cache, with an accuracy drop of 1.2% on the AIME 2024 benchmark. Our findings demonstrate that semantic sparsity in reasoning traces can be effectively exploited for compression, offering a practical path toward efficient deployment of reasoning LLMs. Our code is available at https://github.com/jiwonsong-dev/ReasoningPathCompression.

Compresión de Rutas de Razonamiento: Comprimiendo Trayectorias de Generación para un Razonamiento Eficiente en Modelos de Lenguaje de Gran Escala

Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning

Resumen

Support