Compresión de Rutas de Razonamiento: Comprimiendo Trayectorias de Generación para un Razonamiento Eficiente en Modelos de Lenguaje de Gran Escala
Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning
May 20, 2025
Autores: Jiwon Song, Dongwon Jo, Yulhwa Kim, Jae-Joon Kim
cs.AI
Resumen
Los modelos de lenguaje recientes centrados en razonamiento logran una alta precisión generando extensas trayectorias de razonamiento intermedias antes de producir respuestas finales. Si bien este enfoque es efectivo para resolver problemas que requieren pensamiento lógico, las trayectorias de razonamiento largas aumentan significativamente el uso de memoria y el rendimiento en la generación de tokens, limitando el despliegue práctico de dichos modelos. Proponemos Compresión de Trayectorias de Razonamiento (RPC, por sus siglas en inglés), un método sin entrenamiento que acelera la inferencia aprovechando la escasez semántica de las trayectorias de razonamiento. RPC comprime periódicamente la caché KV reteniendo las entradas de la caché KV que reciben una puntuación de importancia alta, la cual se calcula utilizando una ventana selectora compuesta por consultas generadas recientemente. Los experimentos muestran que RPC mejora el rendimiento de generación de QwQ-32B hasta 1.60 veces en comparación con la inferencia utilizando la caché KV completa, con una disminución de precisión del 1.2% en el benchmark AIME 2024. Nuestros hallazgos demuestran que la escasez semántica en las trazas de razonamiento puede explotarse eficazmente para la compresión, ofreciendo una vía práctica hacia el despliegue eficiente de modelos de lenguaje de razonamiento (LLMs). Nuestro código está disponible en https://github.com/jiwonsong-dev/ReasoningPathCompression.
English
Recent reasoning-focused language models achieve high accuracy by generating
lengthy intermediate reasoning paths before producing final answers. While this
approach is effective in solving problems that require logical thinking, long
reasoning paths significantly increase memory usage and throughput of token
generation, limiting the practical deployment of such models. We propose
Reasoning Path Compression (RPC), a training-free method that accelerates
inference by leveraging the semantic sparsity of reasoning paths. RPC
periodically compresses the KV cache by retaining KV cache that receive high
importance score, which are computed using a selector window composed of
recently generated queries. Experiments show that RPC improves generation
throughput of QwQ-32B by up to 1.60times compared to the inference with full
KV cache, with an accuracy drop of 1.2% on the AIME 2024 benchmark. Our
findings demonstrate that semantic sparsity in reasoning traces can be
effectively exploited for compression, offering a practical path toward
efficient deployment of reasoning LLMs. Our code is available at
https://github.com/jiwonsong-dev/ReasoningPathCompression.Summary
AI-Generated Summary