Compressão de Caminhos de Raciocínio: Comprimindo Trajetórias de Geração para Raciocínio Eficiente em LLMs
Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning
May 20, 2025
Autores: Jiwon Song, Dongwon Jo, Yulhwa Kim, Jae-Joon Kim
cs.AI
Resumo
Modelos de linguagem recentes focados em raciocínio alcançam alta precisão ao gerar caminhos intermediários de raciocínio extensos antes de produzir respostas finais. Embora essa abordagem seja eficaz na resolução de problemas que exigem pensamento lógico, caminhos de raciocínio longos aumentam significativamente o uso de memória e a taxa de geração de tokens, limitando a implantação prática desses modelos. Propomos a Compressão de Caminhos de Raciocínio (RPC, na sigla em inglês), um método livre de treinamento que acelera a inferência ao aproveitar a esparsidade semântica dos caminhos de raciocínio. O RPC comprime periodicamente o cache KV ao reter caches KV que recebem uma pontuação de importância alta, a qual é calculada usando uma janela seletora composta por consultas geradas recentemente. Experimentos mostram que o RPC melhora a taxa de geração do QwQ-32B em até 1,60 vezes em comparação com a inferência usando o cache KV completo, com uma queda de precisão de 1,2% no benchmark AIME 2024. Nossos resultados demonstram que a esparsidade semântica em traços de raciocínio pode ser efetivamente explorada para compressão, oferecendo um caminho prático para a implantação eficiente de LLMs de raciocínio. Nosso código está disponível em https://github.com/jiwonsong-dev/ReasoningPathCompression.
English
Recent reasoning-focused language models achieve high accuracy by generating
lengthy intermediate reasoning paths before producing final answers. While this
approach is effective in solving problems that require logical thinking, long
reasoning paths significantly increase memory usage and throughput of token
generation, limiting the practical deployment of such models. We propose
Reasoning Path Compression (RPC), a training-free method that accelerates
inference by leveraging the semantic sparsity of reasoning paths. RPC
periodically compresses the KV cache by retaining KV cache that receive high
importance score, which are computed using a selector window composed of
recently generated queries. Experiments show that RPC improves generation
throughput of QwQ-32B by up to 1.60times compared to the inference with full
KV cache, with an accuracy drop of 1.2% on the AIME 2024 benchmark. Our
findings demonstrate that semantic sparsity in reasoning traces can be
effectively exploited for compression, offering a practical path toward
efficient deployment of reasoning LLMs. Our code is available at
https://github.com/jiwonsong-dev/ReasoningPathCompression.