PEAR: Recompensa Consciente da Entropia de Fase para Raciocínio Eficiente
PEAR: Phase Entropy Aware Reward for Efficient Reasoning
October 9, 2025
Autores: Chen Huang, Wei Lu, Wenxuan Zhang
cs.AI
Resumo
Modelos de Raciocínio de Grande Escala (LRMs) têm alcançado desempenho impressionante em tarefas complexas de raciocínio ao gerar explicações detalhadas em cadeia de pensamento (CoT). No entanto, essas respostas são frequentemente excessivamente longas, contendo etapas de raciocínio redundantes que aumentam o custo de inferência e reduzem a usabilidade. Controlar o comprimento do raciocínio gerado sem sacrificar a precisão permanece um desafio em aberto. Por meio de uma análise empírica sistemática, revelamos uma correlação positiva consistente entre a entropia do modelo e o comprimento da resposta em diferentes estágios de raciocínio em diversos LRMs: a fase de pensamento exibe maior entropia, refletindo um comportamento exploratório de respostas mais longas, enquanto a fase de resposta final mostra menor entropia, indicando uma solução mais determinística. Essa observação sugere que a entropia em diferentes estágios de raciocínio pode servir como um controle para equilibrar concisão e desempenho. Com base nessa percepção, este artigo introduz o Mecanismo de Recompensa Consciente da Entropia de Fase (PEAR), um mecanismo de recompensa que incorpora a entropia dependente da fase no design da recompensa. Em vez de tratar todos os tokens de forma uniforme, o PEAR penaliza a entropia excessiva durante a fase de pensamento e permite uma exploração moderada na fase de resposta final, o que incentiva os modelos a gerar traços de raciocínio concisos que mantêm flexibilidade suficiente para resolver a tarefa corretamente. Isso possibilita o controle adaptativo do comprimento da resposta sem depender de metas explícitas de comprimento ou regras rígidas de truncamento. Experimentos extensos em quatro benchmarks demonstram que o PEAR reduz consistentemente o comprimento da resposta enquanto mantém uma precisão competitiva em diferentes escalas de modelos. Além disso, o PEAR demonstra forte robustez fora da distribuição (OOD) além da distribuição de treinamento. Nosso código está disponível em: https://github.com/iNLP-Lab/PEAR.
English
Large Reasoning Models (LRMs) have achieved impressive performance on complex
reasoning tasks by generating detailed chain-of-thought (CoT) explanations.
However, these responses are often excessively long, containing redundant
reasoning steps that inflate inference cost and reduce usability. Controlling
the length of generated reasoning without sacrificing accuracy remains an open
challenge. Through a systematic empirical analysis, we reveal a consistent
positive correlation between model entropy and response length at different
reasoning stages across diverse LRMs: the thinking phase exhibits higher
entropy, reflecting exploratory behavior of longer responses, while the final
answer phase shows lower entropy, indicating a more deterministic solution.
This observation suggests that entropy at different reasoning stages can serve
as a control knob for balancing conciseness and performance. Based on this
insight, this paper introduces Phase Entropy Aware Reward (PEAR), a reward
mechanism that incorporating phase-dependent entropy into the reward design.
Instead of treating all tokens uniformly, PEAR penalize excessive entropy
during the thinking phase and allowing moderate exploration at the final answer
phase, which encourages models to generate concise reasoning traces that retain
sufficient flexibility to solve the task correctly. This enables adaptive
control of response length without relying on explicit length targets or rigid
truncation rules. Extensive experiments across four benchmarks demonstrate that
PEAR consistently reduces response length while sustaining competitive accuracy
across model scales. In addition, PEAR demonstrates strong out-of-distribution
(OOD) robustness beyond the training distribution. Our code is available at:
https://github.com/iNLP-Lab/PEAR.