PEAR: Phasenentropie-bewusste Belohnung für effizientes Schließen
PEAR: Phase Entropy Aware Reward for Efficient Reasoning
October 9, 2025
papers.authors: Chen Huang, Wei Lu, Wenxuan Zhang
cs.AI
papers.abstract
Große Reasoning-Modelle (LRMs) haben beeindruckende Leistungen bei komplexen Reasoning-Aufgaben erzielt, indem sie detaillierte Chain-of-Thought (CoT)-Erklärungen generieren. Allerdings sind diese Antworten oft übermäßig lang und enthalten redundante Reasoning-Schritte, die die Inferenzkosten erhöhen und die Benutzerfreundlichkeit verringern. Die Kontrolle der Länge des generierten Reasonings ohne Genauigkeitsverlust bleibt eine offene Herausforderung. Durch eine systematische empirische Analyse zeigen wir eine konsistente positive Korrelation zwischen der Modellentropie und der Antwortlänge in verschiedenen Reasoning-Phasen über diverse LRMs hinweg: Die Denkphase weist eine höhere Entropie auf, was ein exploratives Verhalten mit längeren Antworten widerspiegelt, während die Phase der endgültigen Antwort eine niedrigere Entropie zeigt, was auf eine deterministischere Lösung hindeutet. Diese Beobachtung legt nahe, dass die Entropie in verschiedenen Reasoning-Phasen als Steuerelement für die Balance zwischen Prägnanz und Leistung dienen kann. Basierend auf dieser Erkenntnis führt diese Arbeit den Phase Entropy Aware Reward (PEAR) ein, einen Belohnungsmechanismus, der phasenabhängige Entropie in das Belohnungsdesign integriert. Anstatt alle Token gleich zu behandeln, bestraft PEAR übermäßige Entropie während der Denkphase und ermöglicht moderate Exploration in der Phase der endgültigen Antwort, wodurch Modelle dazu angeregt werden, prägnante Reasoning-Spuren zu generieren, die dennoch ausreichend Flexibilität behalten, um die Aufgabe korrekt zu lösen. Dies ermöglicht eine adaptive Kontrolle der Antwortlänge ohne explizite Längenziele oder starre Kürzungsregeln. Umfangreiche Experimente über vier Benchmarks zeigen, dass PEAR die Antwortlänge konsequent reduziert, während die Genauigkeit über verschiedene Modellgrößen hinweg wettbewerbsfähig bleibt. Darüber hinaus zeigt PEAR eine starke Robustheit gegenüber Out-of-Distribution (OOD)-Daten, die über die Trainingsverteilung hinausgehen. Unser Code ist verfügbar unter: https://github.com/iNLP-Lab/PEAR.
English
Large Reasoning Models (LRMs) have achieved impressive performance on complex
reasoning tasks by generating detailed chain-of-thought (CoT) explanations.
However, these responses are often excessively long, containing redundant
reasoning steps that inflate inference cost and reduce usability. Controlling
the length of generated reasoning without sacrificing accuracy remains an open
challenge. Through a systematic empirical analysis, we reveal a consistent
positive correlation between model entropy and response length at different
reasoning stages across diverse LRMs: the thinking phase exhibits higher
entropy, reflecting exploratory behavior of longer responses, while the final
answer phase shows lower entropy, indicating a more deterministic solution.
This observation suggests that entropy at different reasoning stages can serve
as a control knob for balancing conciseness and performance. Based on this
insight, this paper introduces Phase Entropy Aware Reward (PEAR), a reward
mechanism that incorporating phase-dependent entropy into the reward design.
Instead of treating all tokens uniformly, PEAR penalize excessive entropy
during the thinking phase and allowing moderate exploration at the final answer
phase, which encourages models to generate concise reasoning traces that retain
sufficient flexibility to solve the task correctly. This enables adaptive
control of response length without relying on explicit length targets or rigid
truncation rules. Extensive experiments across four benchmarks demonstrate that
PEAR consistently reduces response length while sustaining competitive accuracy
across model scales. In addition, PEAR demonstrates strong out-of-distribution
(OOD) robustness beyond the training distribution. Our code is available at:
https://github.com/iNLP-Lab/PEAR.