Redeneringspadcompressie: Het comprimeren van generatietrajecten voor efficiënt redeneren met grote taalmodellen

Samenvatting

Recente taalmodellen gericht op redeneren behalen een hoge nauwkeurigheid door uitgebreide tussenliggende redeneerpaden te genereren voordat ze eindantwoorden produceren. Hoewel deze aanpak effectief is voor het oplossen van problemen die logisch denken vereisen, vergroten lange redeneerpaden het geheugengebruik en de doorvoer van token-generatie aanzienlijk, wat de praktische inzet van dergelijke modellen beperkt. Wij stellen Reasoning Path Compression (RPC) voor, een trainingsvrije methode die de inferentie versnelt door gebruik te maken van de semantische schaarste van redeneerpaden. RPC comprimeert periodiek de KV-cache door KV-cache te behouden die een hoge belangrijkheidsscore ontvangen, welke wordt berekend met behulp van een selectievenster bestaande uit recent gegenereerde queries. Experimenten tonen aan dat RPC de generatiedoorvoer van QwQ-32B met maximaal 1,60 keer verbetert in vergelijking met inferentie met een volledige KV-cache, met een nauwkeurigheidsdaling van 1,2% op de AIME 2024-benchmark. Onze bevindingen demonstreren dat semantische schaarste in redeneersporen effectief kan worden benut voor compressie, wat een praktische weg biedt naar efficiënte inzet van redeneer-LLM's. Onze code is beschikbaar op https://github.com/jiwonsong-dev/ReasoningPathCompression.

English

Recent reasoning-focused language models achieve high accuracy by generating lengthy intermediate reasoning paths before producing final answers. While this approach is effective in solving problems that require logical thinking, long reasoning paths significantly increase memory usage and throughput of token generation, limiting the practical deployment of such models. We propose Reasoning Path Compression (RPC), a training-free method that accelerates inference by leveraging the semantic sparsity of reasoning paths. RPC periodically compresses the KV cache by retaining KV cache that receive high importance score, which are computed using a selector window composed of recently generated queries. Experiments show that RPC improves generation throughput of QwQ-32B by up to 1.60times compared to the inference with full KV cache, with an accuracy drop of 1.2% on the AIME 2024 benchmark. Our findings demonstrate that semantic sparsity in reasoning traces can be effectively exploited for compression, offering a practical path toward efficient deployment of reasoning LLMs. Our code is available at https://github.com/jiwonsong-dev/ReasoningPathCompression.

Redeneringspadcompressie: Het comprimeren van generatietrajecten voor efficiënt redeneren met grote taalmodellen

Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning

Samenvatting

Summary

Support

Support