Сжатие путей рассуждения: сжатие траекторий генерации для эффективного рассуждения в больших языковых моделях
Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning
May 20, 2025
Авторы: Jiwon Song, Dongwon Jo, Yulhwa Kim, Jae-Joon Kim
cs.AI
Аннотация
Современные языковые модели, ориентированные на рассуждения, достигают высокой точности за счет генерации длинных промежуточных цепочек рассуждений перед выдачей окончательных ответов. Хотя такой подход эффективен для решения задач, требующих логического мышления, длинные цепочки рассуждений значительно увеличивают использование памяти и время генерации токенов, что ограничивает практическое применение таких моделей. Мы предлагаем метод сжатия путей рассуждений (Reasoning Path Compression, RPC), который ускоряет вывод, не требуя дополнительного обучения, за счет использования семантической разреженности путей рассуждений. RPC периодически сжимает кэш ключей и значений (KV cache), сохраняя только те элементы, которые получают высокие оценки важности, вычисляемые с помощью окна-селектора, состоящего из недавно сгенерированных запросов. Эксперименты показывают, что RPC увеличивает скорость генерации модели QwQ-32B до 1,60 раз по сравнению с выводом с полным кэшем KV, при этом точность снижается на 1,2% на тестовом наборе AIME 2024. Наши результаты демонстрируют, что семантическая разреженность в траекториях рассуждений может быть эффективно использована для сжатия, предлагая практический путь к эффективному развертыванию моделей рассуждений. Наш код доступен по адресу https://github.com/jiwonsong-dev/ReasoningPathCompression.
English
Recent reasoning-focused language models achieve high accuracy by generating
lengthy intermediate reasoning paths before producing final answers. While this
approach is effective in solving problems that require logical thinking, long
reasoning paths significantly increase memory usage and throughput of token
generation, limiting the practical deployment of such models. We propose
Reasoning Path Compression (RPC), a training-free method that accelerates
inference by leveraging the semantic sparsity of reasoning paths. RPC
periodically compresses the KV cache by retaining KV cache that receive high
importance score, which are computed using a selector window composed of
recently generated queries. Experiments show that RPC improves generation
throughput of QwQ-32B by up to 1.60times compared to the inference with full
KV cache, with an accuracy drop of 1.2% on the AIME 2024 benchmark. Our
findings demonstrate that semantic sparsity in reasoning traces can be
effectively exploited for compression, offering a practical path toward
efficient deployment of reasoning LLMs. Our code is available at
https://github.com/jiwonsong-dev/ReasoningPathCompression.Summary
AI-Generated Summary