PEAR: 효율적 추론을 위한 위상 엔트로피 인식 보상
PEAR: Phase Entropy Aware Reward for Efficient Reasoning
October 9, 2025
저자: Chen Huang, Wei Lu, Wenxuan Zhang
cs.AI
초록
대형 추론 모델(LRMs)은 복잡한 추론 과제에서 상세한 사고의 연쇄(CoT) 설명을 생성함으로써 인상적인 성능을 달성했습니다. 그러나 이러한 응답은 종종 지나치게 길며, 불필요한 추론 단계를 포함하여 추론 비용을 증가시키고 사용성을 저하시킵니다. 정확도를 희생하지 않고 생성된 추론의 길이를 제어하는 것은 여전히 해결되지 않은 과제입니다. 체계적인 실증적 분석을 통해, 우리는 다양한 LRM에서 모델 엔트로피와 응답 길이 사이에 일관된 양의 상관관계가 있음을 밝혔습니다: 사고 단계는 더 높은 엔트로피를 보이며, 이는 더 긴 응답의 탐색적 행동을 반영하는 반면, 최종 답변 단계는 더 낮은 엔트로피를 보이며, 더 결정론적인 해결책을 나타냅니다. 이 관찰은 다양한 추론 단계에서의 엔트로피가 간결성과 성능의 균형을 맞추기 위한 제어 수단으로 사용될 수 있음을 시사합니다. 이러한 통찰을 바탕으로, 본 논문은 단계별 엔트로피를 보상 설계에 통합한 Phase Entropy Aware Reward(PEAR)라는 보상 메커니즘을 소개합니다. PEAR는 모든 토큰을 균일하게 처리하는 대신, 사고 단계에서 과도한 엔트로피를 제한하고 최종 답변 단계에서 적당한 탐색을 허용함으로써, 모델이 과제를 올바르게 해결할 수 있는 충분한 유연성을 유지하면서 간결한 추론 흔적을 생성하도록 장려합니다. 이를 통해 명시적인 길이 목표나 엄격한 잘림 규칙에 의존하지 않고도 응답 길이를 적응적으로 제어할 수 있습니다. 네 가지 벤치마크에 걸친 광범위한 실험은 PEAR가 모델 규모에 걸쳐 경쟁력 있는 정확도를 유지하면서 응답 길이를 지속적으로 줄이는 것을 보여줍니다. 또한, PEAR는 훈련 분포를 넘어서는 강력한 분포 외(OOD) 견고성을 보여줍니다. 우리의 코드는 https://github.com/iNLP-Lab/PEAR에서 확인할 수 있습니다.
English
Large Reasoning Models (LRMs) have achieved impressive performance on complex
reasoning tasks by generating detailed chain-of-thought (CoT) explanations.
However, these responses are often excessively long, containing redundant
reasoning steps that inflate inference cost and reduce usability. Controlling
the length of generated reasoning without sacrificing accuracy remains an open
challenge. Through a systematic empirical analysis, we reveal a consistent
positive correlation between model entropy and response length at different
reasoning stages across diverse LRMs: the thinking phase exhibits higher
entropy, reflecting exploratory behavior of longer responses, while the final
answer phase shows lower entropy, indicating a more deterministic solution.
This observation suggests that entropy at different reasoning stages can serve
as a control knob for balancing conciseness and performance. Based on this
insight, this paper introduces Phase Entropy Aware Reward (PEAR), a reward
mechanism that incorporating phase-dependent entropy into the reward design.
Instead of treating all tokens uniformly, PEAR penalize excessive entropy
during the thinking phase and allowing moderate exploration at the final answer
phase, which encourages models to generate concise reasoning traces that retain
sufficient flexibility to solve the task correctly. This enables adaptive
control of response length without relying on explicit length targets or rigid
truncation rules. Extensive experiments across four benchmarks demonstrate that
PEAR consistently reduces response length while sustaining competitive accuracy
across model scales. In addition, PEAR demonstrates strong out-of-distribution
(OOD) robustness beyond the training distribution. Our code is available at:
https://github.com/iNLP-Lab/PEAR.