Оптимизация сжатия длины в крупных моделях логического вывода
Optimizing Length Compression in Large Reasoning Models
June 17, 2025
Авторы: Zhengxiang Cheng, Dongping Chen, Mingyang Fu, Tianyi Zhou
cs.AI
Аннотация
Крупные модели рассуждений (Large Reasoning Models, LRMs) достигли значительных успехов, однако они часто страдают от создания избыточных и многословных цепочек рассуждений. Мы выделяем ключевой аспект этой проблемы как "неэффективное мышление" — модели склонны многократно перепроверять свои выводы после того, как уже получили правильный ответ. Для устранения этой конкретной неэффективности мы выходим за рамки общих принципов Эффективности и Экономичности, предлагая два новых, более детализированных принципа: Краткость, которая призывает к устранению избыточности, и Достаточность, которая обеспечивает сохранение критически важных шагов рассуждений. Руководствуясь этими принципами, мы представляем LC-R1 — метод пост-обучения, основанный на Оптимизации Относительной Политики Групп (Group Relative Policy Optimization, GRPO). LC-R1 использует новую комбинацию Награды за Длину для общей лаконичности и Награды за Сжатие, которая специально разработана для удаления неэффективной части процесса мышления. Многочисленные эксперименты на различных наборах данных для проверки рассуждений демонстрируют, что LC-R1 достигает значительного сокращения длины последовательности (~50%) при лишь незначительном снижении точности (~2%), достигая оптимального компромисса на границе Парето, который делает акцент на высокой степени сжатия. Наш анализ дополнительно подтверждает устойчивость LC-R1 и предоставляет ценные инсайты для разработки более мощных, но при этом вычислительно эффективных LRMs. Наш код доступен по адресу https://github.com/zxiangx/LC-R1.
English
Large Reasoning Models (LRMs) have achieved remarkable success, yet they
often suffer from producing unnecessary and verbose reasoning chains. We
identify a core aspect of this issue as "invalid thinking" -- models tend to
repeatedly double-check their work after having derived the correct answer. To
address this specific inefficiency, we move beyond the general principles of
Efficacy and Efficiency to propose two new, fine-grained principles: Brevity,
which advocates for eliminating redundancy, and Sufficiency, which ensures
critical reasoning steps are preserved. Guided by these principles, we
introduce LC-R1, a post-training method based on Group Relative Policy
Optimization (GRPO). LC-R1 employs a novel combination of a Length Reward for
overall conciseness and a Compress Reward that is specifically designed to
remove the invalid portion of the thinking process. Extensive experiments on
multiple reasoning benchmarks demonstrate that LC-R1 achieves a significant
reduction in sequence length (~50%) with only a marginal (~2%) drop in
accuracy, achieving a favorable trade-off point on the Pareto frontier that
prioritizes high compression. Our analysis further validates the robustness of
LC-R1 and provides valuable insights for developing more powerful yet
computationally efficient LRMs. Our code is released at
https://github.com/zxiangx/LC-R1.