Научитесь эффективно рассуждать с адаптивным формированием вознаграждения на основе длины
Learn to Reason Efficiently with Adaptive Length-based Reward Shaping
May 21, 2025
Авторы: Wei Liu, Ruochen Zhou, Yiyun Deng, Yuzhen Huang, Junteng Liu, Yuntian Deng, Yizhe Zhang, Junxian He
cs.AI
Аннотация
Модели с большими возможностями рассуждений (Large Reasoning Models, LRMs) продемонстрировали впечатляющие способности в решении сложных задач с использованием обучения с подкреплением (Reinforcement Learning, RL), особенно за счет генерации длинных цепочек рассуждений. Однако такие расширенные выводы часто содержат значительную избыточность, что ограничивает эффективность LRMs. В данной статье мы исследуем подходы на основе RL для повышения эффективности рассуждений. В частности, мы сначала представляем унифицированную структуру, которая формулирует различные методы эффективного рассуждения через призму формирования вознаграждения на основе длины. Опираясь на эту перспективу, мы предлагаем новый метод формирования вознаграждения на основе длины с использованием ступенчатой функции (Length-bAsed StEp Reward shaping, LASER), который использует ступенчатую функцию в качестве вознаграждения, контролируемого целевой длиной. LASER превосходит предыдущие методы, достигая оптимального баланса Парето между производительностью и эффективностью. Далее мы расширяем LASER на основе двух ключевых интуиций: (1) Поведение модели в рассуждениях эволюционирует в процессе обучения, что требует адаптивных и динамических спецификаций вознаграждения; (2) Вместо равномерного поощрения более коротких или длинных цепочек рассуждений (Chain of Thought, CoT), мы предполагаем, что формирование вознаграждения на основе длины должно учитывать сложность, т.е. оно должно сильнее штрафовать длинные CoT для простых запросов. Такой подход, как ожидается, будет способствовать сочетанию быстрого и медленного мышления, приводя к лучшему общему компромиссу. Полученный метод называется LASER-D (Dynamic and Difficulty-aware). Эксперименты на моделях DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B и DeepSeek-R1-Distill-Qwen-32B показывают, что наш подход значительно улучшает как производительность рассуждений, так и эффективность длины ответа. Например, LASER-D и его вариант достигают улучшения на +6.1 на AIME2024 при сокращении использования токенов на 63%. Дополнительный анализ показывает, что наше сжатие на основе RL создает более лаконичные паттерны рассуждений с меньшей избыточной "саморефлексией". Ресурсы доступны по адресу https://github.com/hkust-nlp/Laser.
English
Large Reasoning Models (LRMs) have shown remarkable capabilities in solving
complex problems through reinforcement learning (RL), particularly by
generating long reasoning traces. However, these extended outputs often exhibit
substantial redundancy, which limits the efficiency of LRMs. In this paper, we
investigate RL-based approaches to promote reasoning efficiency. Specifically,
we first present a unified framework that formulates various efficient
reasoning methods through the lens of length-based reward shaping. Building on
this perspective, we propose a novel Length-bAsed StEp Reward shaping method
(LASER), which employs a step function as the reward, controlled by a target
length. LASER surpasses previous methods, achieving a superior Pareto-optimal
balance between performance and efficiency. Next, we further extend LASER based
on two key intuitions: (1) The reasoning behavior of the model evolves during
training, necessitating reward specifications that are also adaptive and
dynamic; (2) Rather than uniformly encouraging shorter or longer chains of
thought (CoT), we posit that length-based reward shaping should be
difficulty-aware i.e., it should penalize lengthy CoTs more for easy queries.
This approach is expected to facilitate a combination of fast and slow
thinking, leading to a better overall tradeoff. The resulting method is termed
LASER-D (Dynamic and Difficulty-aware). Experiments on
DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B, and
DeepSeek-R1-Distill-Qwen-32B show that our approach significantly enhances both
reasoning performance and response length efficiency. For instance, LASER-D and
its variant achieve a +6.1 improvement on AIME2024 while reducing token usage
by 63%. Further analysis reveals our RL-based compression produces more concise
reasoning patterns with less redundant "self-reflections". Resources are at
https://github.com/hkust-nlp/Laser.Summary
AI-Generated Summary