PEAR: Ricompensa Basata sull'Entropia di Fase per un Ragionamento Efficiente
PEAR: Phase Entropy Aware Reward for Efficient Reasoning
October 9, 2025
Autori: Chen Huang, Wei Lu, Wenxuan Zhang
cs.AI
Abstract
I Large Reasoning Models (LRM) hanno ottenuto prestazioni impressionanti su compiti di ragionamento complesso generando spiegazioni dettagliate a catena di pensiero (Chain-of-Thought, CoT). Tuttavia, queste risposte sono spesso eccessivamente lunghe, contenendo passaggi di ragionamento ridondanti che aumentano i costi di inferenza e riducono l'usabilità. Controllare la lunghezza del ragionamento generato senza sacrificare l'accuratezza rimane una sfida aperta. Attraverso un'analisi empirica sistematica, riveliamo una correlazione positiva costante tra l'entropia del modello e la lunghezza della risposta in diverse fasi del ragionamento tra vari LRM: la fase di pensiero mostra un'entropia più alta, riflettendo un comportamento esplorativo con risposte più lunghe, mentre la fase della risposta finale presenta un'entropia più bassa, indicando una soluzione più deterministica. Questa osservazione suggerisce che l'entropia nelle diverse fasi del ragionamento può fungere da leva di controllo per bilanciare concisione e prestazioni. Basandoci su questa intuizione, questo articolo introduce il Phase Entropy Aware Reward (PEAR), un meccanismo di ricompensa che incorpora l'entropia dipendente dalla fase nel design della ricompensa. Invece di trattare tutti i token in modo uniforme, PEAR penalizza l'entropia eccessiva durante la fase di pensiero e consente un'esplorazione moderata nella fase della risposta finale, incoraggiando i modelli a generare tracce di ragionamento concise che mantengono sufficiente flessibilità per risolvere correttamente il compito. Ciò consente un controllo adattivo della lunghezza della risposta senza fare affidamento su obiettivi di lunghezza espliciti o regole di troncamento rigide. Esperimenti estesi su quattro benchmark dimostrano che PEAR riduce costantemente la lunghezza della risposta mantenendo un'accuratezza competitiva su diverse scale di modelli. Inoltre, PEAR dimostra una forte robustezza out-of-distribution (OOD) oltre la distribuzione di addestramento. Il nostro codice è disponibile all'indirizzo: https://github.com/iNLP-Lab/PEAR.
English
Large Reasoning Models (LRMs) have achieved impressive performance on complex
reasoning tasks by generating detailed chain-of-thought (CoT) explanations.
However, these responses are often excessively long, containing redundant
reasoning steps that inflate inference cost and reduce usability. Controlling
the length of generated reasoning without sacrificing accuracy remains an open
challenge. Through a systematic empirical analysis, we reveal a consistent
positive correlation between model entropy and response length at different
reasoning stages across diverse LRMs: the thinking phase exhibits higher
entropy, reflecting exploratory behavior of longer responses, while the final
answer phase shows lower entropy, indicating a more deterministic solution.
This observation suggests that entropy at different reasoning stages can serve
as a control knob for balancing conciseness and performance. Based on this
insight, this paper introduces Phase Entropy Aware Reward (PEAR), a reward
mechanism that incorporating phase-dependent entropy into the reward design.
Instead of treating all tokens uniformly, PEAR penalize excessive entropy
during the thinking phase and allowing moderate exploration at the final answer
phase, which encourages models to generate concise reasoning traces that retain
sufficient flexibility to solve the task correctly. This enables adaptive
control of response length without relying on explicit length targets or rigid
truncation rules. Extensive experiments across four benchmarks demonstrate that
PEAR consistently reduces response length while sustaining competitive accuracy
across model scales. In addition, PEAR demonstrates strong out-of-distribution
(OOD) robustness beyond the training distribution. Our code is available at:
https://github.com/iNLP-Lab/PEAR.