PEAR: Fase-entropie bewuste beloning voor efficiënt redeneren

Samenvatting

Grote Redeneermodellen (LRMs) hebben indrukwekkende prestaties geleverd op complexe redeneertaken door gedetailleerde keten-van-gedachten (CoT) verklaringen te genereren. Deze reacties zijn echter vaak buitensporig lang en bevatten overbodige redeneerstappen die de inferentiekosten verhogen en de bruikbaarheid verminderen. Het beheersen van de lengte van gegenereerd redeneren zonder de nauwkeurigheid op te offeren, blijft een uitdaging. Door een systematische empirische analyse onthullen we een consistente positieve correlatie tussen modelentropie en reactielengte in verschillende redeneerfasen bij diverse LRMs: de denkfase vertoont een hogere entropie, wat wijst op verkennend gedrag met langere reacties, terwijl de eindantwoordfase een lagere entropie laat zien, wat duidt op een meer deterministische oplossing. Deze observatie suggereert dat entropie in verschillende redeneerfasen kan dienen als een regelknop voor het balanceren van beknoptheid en prestaties. Gebaseerd op dit inzicht introduceert dit artikel Phase Entropy Aware Reward (PEAR), een beloningsmechanisme dat faseafhankelijke entropie integreert in het beloningsontwerp. In plaats van alle tokens uniform te behandelen, bestraft PEAR overmatige entropie tijdens de denkfase en staat gematigd verkennen toe in de eindantwoordfase, wat modellen aanmoedigt om beknopte redeneersporen te genereren die voldoende flexibiliteit behouden om de taak correct op te lossen. Dit maakt adaptieve controle van de reactielengte mogelijk zonder te vertrouwen op expliciete lengtedoelen of rigide afkappingsregels. Uitgebreide experimenten op vier benchmarks tonen aan dat PEAR consistent de reactielengte vermindert terwijl het concurrerende nauwkeurigheid behoudt over verschillende modelschalen. Daarnaast toont PEAR sterke robuustheid buiten de trainingsdistributie (OOD). Onze code is beschikbaar op: https://github.com/iNLP-Lab/PEAR.

English

Large Reasoning Models (LRMs) have achieved impressive performance on complex reasoning tasks by generating detailed chain-of-thought (CoT) explanations. However, these responses are often excessively long, containing redundant reasoning steps that inflate inference cost and reduce usability. Controlling the length of generated reasoning without sacrificing accuracy remains an open challenge. Through a systematic empirical analysis, we reveal a consistent positive correlation between model entropy and response length at different reasoning stages across diverse LRMs: the thinking phase exhibits higher entropy, reflecting exploratory behavior of longer responses, while the final answer phase shows lower entropy, indicating a more deterministic solution. This observation suggests that entropy at different reasoning stages can serve as a control knob for balancing conciseness and performance. Based on this insight, this paper introduces Phase Entropy Aware Reward (PEAR), a reward mechanism that incorporating phase-dependent entropy into the reward design. Instead of treating all tokens uniformly, PEAR penalize excessive entropy during the thinking phase and allowing moderate exploration at the final answer phase, which encourages models to generate concise reasoning traces that retain sufficient flexibility to solve the task correctly. This enables adaptive control of response length without relying on explicit length targets or rigid truncation rules. Extensive experiments across four benchmarks demonstrate that PEAR consistently reduces response length while sustaining competitive accuracy across model scales. In addition, PEAR demonstrates strong out-of-distribution (OOD) robustness beyond the training distribution. Our code is available at: https://github.com/iNLP-Lab/PEAR.

PEAR: Fase-entropie bewuste beloning voor efficiënt redeneren

PEAR: Phase Entropy Aware Reward for Efficient Reasoning

Samenvatting

Support