PEAR: 効率的な推論のための位相エントロピーを考慮した報酬
PEAR: Phase Entropy Aware Reward for Efficient Reasoning
October 9, 2025
著者: Chen Huang, Wei Lu, Wenxuan Zhang
cs.AI
要旨
大規模推論モデル(LRMs)は、詳細な連鎖的思考(CoT)説明を生成することで、複雑な推論タスクにおいて印象的な性能を達成してきました。しかし、これらの応答はしばしば過度に長く、冗長な推論ステップを含むため、推論コストを膨らませ、使い勝手を低下させています。精度を犠牲にすることなく生成される推論の長さを制御することは、依然として未解決の課題です。体系的な実証分析を通じて、我々は多様なLRMsにおいて、モデルのエントロピーと応答の長さの間に一貫した正の相関関係があることを明らかにしました:思考段階ではより高いエントロピーを示し、長い応答の探索的行動を反映していますが、最終回答段階ではより低いエントロピーを示し、決定論的な解決策を示しています。この観察は、異なる推論段階でのエントロピーが、簡潔さと性能のバランスを取るための制御ノブとして機能し得ることを示唆しています。この洞察に基づき、本論文では、段階依存のエントロピーを報酬設計に組み込んだ報酬メカニズムであるPhase Entropy Aware Reward(PEAR)を紹介します。PEARは、すべてのトークンを均一に扱うのではなく、思考段階での過剰なエントロピーをペナルティ化し、最終回答段階では適度な探索を許容することで、タスクを正しく解決するための十分な柔軟性を保持した簡潔な推論トレースを生成するようモデルを促します。これにより、明示的な長さの目標や厳格な切り捨てルールに依存することなく、応答の長さを適応的に制御することが可能になります。4つのベンチマークにわたる広範な実験により、PEARがモデルスケールにわたって競争力のある精度を維持しながら、応答の長さを一貫して短縮することが実証されました。さらに、PEARは、訓練分布を超えた分布外(OOD)ロバスト性も強く示しています。我々のコードは以下で利用可能です:https://github.com/iNLP-Lab/PEAR。
English
Large Reasoning Models (LRMs) have achieved impressive performance on complex
reasoning tasks by generating detailed chain-of-thought (CoT) explanations.
However, these responses are often excessively long, containing redundant
reasoning steps that inflate inference cost and reduce usability. Controlling
the length of generated reasoning without sacrificing accuracy remains an open
challenge. Through a systematic empirical analysis, we reveal a consistent
positive correlation between model entropy and response length at different
reasoning stages across diverse LRMs: the thinking phase exhibits higher
entropy, reflecting exploratory behavior of longer responses, while the final
answer phase shows lower entropy, indicating a more deterministic solution.
This observation suggests that entropy at different reasoning stages can serve
as a control knob for balancing conciseness and performance. Based on this
insight, this paper introduces Phase Entropy Aware Reward (PEAR), a reward
mechanism that incorporating phase-dependent entropy into the reward design.
Instead of treating all tokens uniformly, PEAR penalize excessive entropy
during the thinking phase and allowing moderate exploration at the final answer
phase, which encourages models to generate concise reasoning traces that retain
sufficient flexibility to solve the task correctly. This enables adaptive
control of response length without relying on explicit length targets or rigid
truncation rules. Extensive experiments across four benchmarks demonstrate that
PEAR consistently reduces response length while sustaining competitive accuracy
across model scales. In addition, PEAR demonstrates strong out-of-distribution
(OOD) robustness beyond the training distribution. Our code is available at:
https://github.com/iNLP-Lab/PEAR.