Compression des Chemins de Raisonnement : Compression des Trajectoires de Génération pour un Raisonnement Efficace des LLM
Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning
May 20, 2025
Auteurs: Jiwon Song, Dongwon Jo, Yulhwa Kim, Jae-Joon Kim
cs.AI
Résumé
Les modèles de langage récents axés sur le raisonnement atteignent une grande précision en générant des chemins de raisonnement intermédiaires longs avant de produire des réponses finales. Bien que cette approche soit efficace pour résoudre des problèmes nécessitant une pensée logique, les longs chemins de raisonnement augmentent considérablement l'utilisation de la mémoire et le débit de génération de tokens, limitant ainsi le déploiement pratique de tels modèles. Nous proposons la Compression des Chemins de Raisonnement (RPC), une méthode sans entraînement qui accélère l'inférence en exploitant la parcimonie sémantique des chemins de raisonnement. RPC compresse périodiquement le cache KV en conservant les entrées du cache KV qui reçoivent un score d'importance élevé, calculé à l'aide d'une fenêtre de sélection composée de requêtes récemment générées. Les expériences montrent que RPC améliore le débit de génération de QwQ-32B jusqu'à 1,60 fois par rapport à l'inférence avec un cache KV complet, avec une baisse de précision de 1,2 % sur le benchmark AIME 2024. Nos résultats démontrent que la parcimonie sémantique dans les traces de raisonnement peut être efficacement exploitée pour la compression, offrant une voie pratique vers un déploiement efficace des LLM de raisonnement. Notre code est disponible à l'adresse https://github.com/jiwonsong-dev/ReasoningPathCompression.
English
Recent reasoning-focused language models achieve high accuracy by generating
lengthy intermediate reasoning paths before producing final answers. While this
approach is effective in solving problems that require logical thinking, long
reasoning paths significantly increase memory usage and throughput of token
generation, limiting the practical deployment of such models. We propose
Reasoning Path Compression (RPC), a training-free method that accelerates
inference by leveraging the semantic sparsity of reasoning paths. RPC
periodically compresses the KV cache by retaining KV cache that receive high
importance score, which are computed using a selector window composed of
recently generated queries. Experiments show that RPC improves generation
throughput of QwQ-32B by up to 1.60times compared to the inference with full
KV cache, with an accuracy drop of 1.2% on the AIME 2024 benchmark. Our
findings demonstrate that semantic sparsity in reasoning traces can be
effectively exploited for compression, offering a practical path toward
efficient deployment of reasoning LLMs. Our code is available at
https://github.com/jiwonsong-dev/ReasoningPathCompression.Summary
AI-Generated Summary