Pfadkompression beim Schlussfolgern: Komprimierung von Generierungspfaden für effizientes LLM-Schlussfolgern

papers.abstract

Aktuelle sprachmodelle, die auf logisches Denken ausgerichtet sind, erreichen hohe Genauigkeit, indem sie umfangreiche Zwischenschritte der Argumentation generieren, bevor sie endgültige Antworten liefern. Während dieser Ansatz effektiv ist, um Probleme zu lösen, die logisches Denken erfordern, erhöhen lange Argumentationspfade den Speicherbedarf und den Durchsatz der Token-Generierung erheblich, was die praktische Anwendung solcher Modelle einschränkt. Wir schlagen Reasoning Path Compression (RPC) vor, eine trainingsfreie Methode, die die Inferenz beschleunigt, indem sie die semantische Sparsamkeit von Argumentationspfaden nutzt. RPC komprimiert den KV-Cache periodisch, indem es den KV-Cache beibehält, der hohe Wichtigkeitsscores erhält, die mithilfe eines Auswahlfensters berechnet werden, das aus kürzlich generierten Abfragen besteht. Experimente zeigen, dass RPC den Generierungsdurchsatz von QwQ-32B um bis zu das 1,60-fache im Vergleich zur Inferenz mit vollständigem KV-Cache verbessert, bei einem Genauigkeitsverlust von 1,2 % im AIME-2024-Benchmark. Unsere Ergebnisse zeigen, dass die semantische Sparsamkeit in Argumentationspfaden effektiv für die Kompression genutzt werden kann, was einen praktischen Weg zur effizienten Bereitstellung von logisch denkenden LLMs bietet. Unser Code ist verfügbar unter https://github.com/jiwonsong-dev/ReasoningPathCompression.

English

Recent reasoning-focused language models achieve high accuracy by generating lengthy intermediate reasoning paths before producing final answers. While this approach is effective in solving problems that require logical thinking, long reasoning paths significantly increase memory usage and throughput of token generation, limiting the practical deployment of such models. We propose Reasoning Path Compression (RPC), a training-free method that accelerates inference by leveraging the semantic sparsity of reasoning paths. RPC periodically compresses the KV cache by retaining KV cache that receive high importance score, which are computed using a selector window composed of recently generated queries. Experiments show that RPC improves generation throughput of QwQ-32B by up to 1.60times compared to the inference with full KV cache, with an accuracy drop of 1.2% on the AIME 2024 benchmark. Our findings demonstrate that semantic sparsity in reasoning traces can be effectively exploited for compression, offering a practical path toward efficient deployment of reasoning LLMs. Our code is available at https://github.com/jiwonsong-dev/ReasoningPathCompression.

Pfadkompression beim Schlussfolgern: Komprimierung von Generierungspfaden für effizientes LLM-Schlussfolgern

Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning

papers.abstract

Support