PEAR: Fase-entropie bewuste beloning voor efficiënt redeneren
PEAR: Phase Entropy Aware Reward for Efficient Reasoning
October 9, 2025
Auteurs: Chen Huang, Wei Lu, Wenxuan Zhang
cs.AI
Samenvatting
Grote Redeneermodellen (LRMs) hebben indrukwekkende prestaties geleverd op complexe redeneertaken door gedetailleerde keten-van-gedachten (CoT) verklaringen te genereren. Deze reacties zijn echter vaak buitensporig lang en bevatten overbodige redeneerstappen die de inferentiekosten verhogen en de bruikbaarheid verminderen. Het beheersen van de lengte van gegenereerd redeneren zonder de nauwkeurigheid op te offeren, blijft een uitdaging. Door een systematische empirische analyse onthullen we een consistente positieve correlatie tussen modelentropie en reactielengte in verschillende redeneerfasen bij diverse LRMs: de denkfase vertoont een hogere entropie, wat wijst op verkennend gedrag met langere reacties, terwijl de eindantwoordfase een lagere entropie laat zien, wat duidt op een meer deterministische oplossing. Deze observatie suggereert dat entropie in verschillende redeneerfasen kan dienen als een regelknop voor het balanceren van beknoptheid en prestaties. Gebaseerd op dit inzicht introduceert dit artikel Phase Entropy Aware Reward (PEAR), een beloningsmechanisme dat faseafhankelijke entropie integreert in het beloningsontwerp. In plaats van alle tokens uniform te behandelen, bestraft PEAR overmatige entropie tijdens de denkfase en staat gematigd verkennen toe in de eindantwoordfase, wat modellen aanmoedigt om beknopte redeneersporen te genereren die voldoende flexibiliteit behouden om de taak correct op te lossen. Dit maakt adaptieve controle van de reactielengte mogelijk zonder te vertrouwen op expliciete lengtedoelen of rigide afkappingsregels. Uitgebreide experimenten op vier benchmarks tonen aan dat PEAR consistent de reactielengte vermindert terwijl het concurrerende nauwkeurigheid behoudt over verschillende modelschalen. Daarnaast toont PEAR sterke robuustheid buiten de trainingsdistributie (OOD). Onze code is beschikbaar op: https://github.com/iNLP-Lab/PEAR.
English
Large Reasoning Models (LRMs) have achieved impressive performance on complex
reasoning tasks by generating detailed chain-of-thought (CoT) explanations.
However, these responses are often excessively long, containing redundant
reasoning steps that inflate inference cost and reduce usability. Controlling
the length of generated reasoning without sacrificing accuracy remains an open
challenge. Through a systematic empirical analysis, we reveal a consistent
positive correlation between model entropy and response length at different
reasoning stages across diverse LRMs: the thinking phase exhibits higher
entropy, reflecting exploratory behavior of longer responses, while the final
answer phase shows lower entropy, indicating a more deterministic solution.
This observation suggests that entropy at different reasoning stages can serve
as a control knob for balancing conciseness and performance. Based on this
insight, this paper introduces Phase Entropy Aware Reward (PEAR), a reward
mechanism that incorporating phase-dependent entropy into the reward design.
Instead of treating all tokens uniformly, PEAR penalize excessive entropy
during the thinking phase and allowing moderate exploration at the final answer
phase, which encourages models to generate concise reasoning traces that retain
sufficient flexibility to solve the task correctly. This enables adaptive
control of response length without relying on explicit length targets or rigid
truncation rules. Extensive experiments across four benchmarks demonstrate that
PEAR consistently reduces response length while sustaining competitive accuracy
across model scales. In addition, PEAR demonstrates strong out-of-distribution
(OOD) robustness beyond the training distribution. Our code is available at:
https://github.com/iNLP-Lab/PEAR.