Compressão de Caminhos de Raciocínio: Comprimindo Trajetórias de Geração para Raciocínio Eficiente em LLMs

Resumo

Modelos de linguagem recentes focados em raciocínio alcançam alta precisão ao gerar caminhos intermediários de raciocínio extensos antes de produzir respostas finais. Embora essa abordagem seja eficaz na resolução de problemas que exigem pensamento lógico, caminhos de raciocínio longos aumentam significativamente o uso de memória e a taxa de geração de tokens, limitando a implantação prática desses modelos. Propomos a Compressão de Caminhos de Raciocínio (RPC, na sigla em inglês), um método livre de treinamento que acelera a inferência ao aproveitar a esparsidade semântica dos caminhos de raciocínio. O RPC comprime periodicamente o cache KV ao reter caches KV que recebem uma pontuação de importância alta, a qual é calculada usando uma janela seletora composta por consultas geradas recentemente. Experimentos mostram que o RPC melhora a taxa de geração do QwQ-32B em até 1,60 vezes em comparação com a inferência usando o cache KV completo, com uma queda de precisão de 1,2% no benchmark AIME 2024. Nossos resultados demonstram que a esparsidade semântica em traços de raciocínio pode ser efetivamente explorada para compressão, oferecendo um caminho prático para a implantação eficiente de LLMs de raciocínio. Nosso código está disponível em https://github.com/jiwonsong-dev/ReasoningPathCompression.

English

Recent reasoning-focused language models achieve high accuracy by generating lengthy intermediate reasoning paths before producing final answers. While this approach is effective in solving problems that require logical thinking, long reasoning paths significantly increase memory usage and throughput of token generation, limiting the practical deployment of such models. We propose Reasoning Path Compression (RPC), a training-free method that accelerates inference by leveraging the semantic sparsity of reasoning paths. RPC periodically compresses the KV cache by retaining KV cache that receive high importance score, which are computed using a selector window composed of recently generated queries. Experiments show that RPC improves generation throughput of QwQ-32B by up to 1.60times compared to the inference with full KV cache, with an accuracy drop of 1.2% on the AIME 2024 benchmark. Our findings demonstrate that semantic sparsity in reasoning traces can be effectively exploited for compression, offering a practical path toward efficient deployment of reasoning LLMs. Our code is available at https://github.com/jiwonsong-dev/ReasoningPathCompression.

Compressão de Caminhos de Raciocínio: Comprimindo Trajetórias de Geração para Raciocínio Eficiente em LLMs

Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning

Resumo

Support