PEAR: Фазовая энтропийно-осознанная награда для эффективного рассуждения
PEAR: Phase Entropy Aware Reward for Efficient Reasoning
October 9, 2025
Авторы: Chen Huang, Wei Lu, Wenxuan Zhang
cs.AI
Аннотация
Крупные модели рассуждений (Large Reasoning Models, LRMs) демонстрируют впечатляющие результаты в выполнении сложных задач, генерируя подробные объяснения в виде цепочек рассуждений (chain-of-thought, CoT). Однако такие ответы часто оказываются избыточно длинными, содержат повторяющиеся шаги рассуждений, что увеличивает затраты на вывод и снижает удобство использования. Управление длиной генерируемых рассуждений без ущерба для точности остается открытой проблемой. В результате систематического эмпирического анализа мы выявили устойчивую положительную корреляцию между энтропией модели и длиной ответа на различных этапах рассуждений в разных LRM: фаза мышления характеризуется более высокой энтропией, что отражает исследовательский характер длинных ответов, тогда как фаза финального ответа демонстрирует более низкую энтропию, указывая на детерминированное решение. Это наблюдение позволяет предположить, что энтропия на разных этапах рассуждений может служить инструментом для балансировки краткости и производительности. На основе этого инсайта в данной работе представлен механизм вознаграждения Phase Entropy Aware Reward (PEAR), который учитывает энтропию, зависящую от фазы, в дизайне вознаграждения. Вместо равномерного подхода ко всем токенам PEAR штрафует избыточную энтропию на этапе мышления и допускает умеренное исследование на этапе финального ответа, что побуждает модели генерировать краткие цепочки рассуждений, сохраняя достаточную гибкость для корректного решения задачи. Это позволяет адаптивно управлять длиной ответа без использования явных целевых показателей длины или жестких правил усечения. Эксперименты на четырех бенчмарках показывают, что PEAR последовательно сокращает длину ответов, сохраняя конкурентоспособную точность на различных масштабах моделей. Кроме того, PEAR демонстрирует высокую устойчивость к данным, выходящим за пределы обучающего распределения (out-of-distribution, OOD). Наш код доступен по адресу: https://github.com/iNLP-Lab/PEAR.
English
Large Reasoning Models (LRMs) have achieved impressive performance on complex
reasoning tasks by generating detailed chain-of-thought (CoT) explanations.
However, these responses are often excessively long, containing redundant
reasoning steps that inflate inference cost and reduce usability. Controlling
the length of generated reasoning without sacrificing accuracy remains an open
challenge. Through a systematic empirical analysis, we reveal a consistent
positive correlation between model entropy and response length at different
reasoning stages across diverse LRMs: the thinking phase exhibits higher
entropy, reflecting exploratory behavior of longer responses, while the final
answer phase shows lower entropy, indicating a more deterministic solution.
This observation suggests that entropy at different reasoning stages can serve
as a control knob for balancing conciseness and performance. Based on this
insight, this paper introduces Phase Entropy Aware Reward (PEAR), a reward
mechanism that incorporating phase-dependent entropy into the reward design.
Instead of treating all tokens uniformly, PEAR penalize excessive entropy
during the thinking phase and allowing moderate exploration at the final answer
phase, which encourages models to generate concise reasoning traces that retain
sufficient flexibility to solve the task correctly. This enables adaptive
control of response length without relying on explicit length targets or rigid
truncation rules. Extensive experiments across four benchmarks demonstrate that
PEAR consistently reduces response length while sustaining competitive accuracy
across model scales. In addition, PEAR demonstrates strong out-of-distribution
(OOD) robustness beyond the training distribution. Our code is available at:
https://github.com/iNLP-Lab/PEAR.