PEAR : Récompense basée sur l'entropie de phase pour un raisonnement efficace
PEAR: Phase Entropy Aware Reward for Efficient Reasoning
October 9, 2025
papers.authors: Chen Huang, Wei Lu, Wenxuan Zhang
cs.AI
papers.abstract
Les modèles de raisonnement à grande échelle (LRMs) ont obtenu des performances impressionnantes sur des tâches de raisonnement complexes en générant des explications détaillées de type chaîne de pensée (CoT). Cependant, ces réponses sont souvent excessivement longues, contenant des étapes de raisonnement redondantes qui augmentent les coûts d'inférence et réduisent la praticité. Contrôler la longueur du raisonnement généré sans sacrifier la précision reste un défi ouvert. À travers une analyse empirique systématique, nous révélons une corrélation positive constante entre l'entropie du modèle et la longueur des réponses à différentes étapes du raisonnement, observée dans divers LRMs : la phase de réflexion présente une entropie plus élevée, reflétant un comportement exploratoire avec des réponses plus longues, tandis que la phase de réponse finale montre une entropie plus faible, indiquant une solution plus déterministe. Cette observation suggère que l'entropie à différentes étapes du raisonnement peut servir de levier pour équilibrer concision et performance. Sur la base de cette idée, cet article introduit Phase Entropy Aware Reward (PEAR), un mécanisme de récompense qui intègre l'entropie dépendante de la phase dans la conception des récompenses. Au lieu de traiter tous les tokens de manière uniforme, PEAR pénalise l'entropie excessive pendant la phase de réflexion tout en permettant une exploration modérée lors de la phase de réponse finale, ce qui encourage les modèles à générer des traces de raisonnement concises tout en conservant une flexibilité suffisante pour résoudre la tâche correctement. Cela permet un contrôle adaptatif de la longueur des réponses sans dépendre d'objectifs de longueur explicites ou de règles de troncation rigides. Des expériences approfondies sur quatre benchmarks démontrent que PEAR réduit systématiquement la longueur des réponses tout en maintenant une précision compétitive, quelle que soit l'échelle du modèle. De plus, PEAR montre une robustesse hors distribution (OOD) forte au-delà de la distribution d'entraînement. Notre code est disponible à l'adresse : https://github.com/iNLP-Lab/PEAR.
English
Large Reasoning Models (LRMs) have achieved impressive performance on complex
reasoning tasks by generating detailed chain-of-thought (CoT) explanations.
However, these responses are often excessively long, containing redundant
reasoning steps that inflate inference cost and reduce usability. Controlling
the length of generated reasoning without sacrificing accuracy remains an open
challenge. Through a systematic empirical analysis, we reveal a consistent
positive correlation between model entropy and response length at different
reasoning stages across diverse LRMs: the thinking phase exhibits higher
entropy, reflecting exploratory behavior of longer responses, while the final
answer phase shows lower entropy, indicating a more deterministic solution.
This observation suggests that entropy at different reasoning stages can serve
as a control knob for balancing conciseness and performance. Based on this
insight, this paper introduces Phase Entropy Aware Reward (PEAR), a reward
mechanism that incorporating phase-dependent entropy into the reward design.
Instead of treating all tokens uniformly, PEAR penalize excessive entropy
during the thinking phase and allowing moderate exploration at the final answer
phase, which encourages models to generate concise reasoning traces that retain
sufficient flexibility to solve the task correctly. This enables adaptive
control of response length without relying on explicit length targets or rigid
truncation rules. Extensive experiments across four benchmarks demonstrate that
PEAR consistently reduces response length while sustaining competitive accuracy
across model scales. In addition, PEAR demonstrates strong out-of-distribution
(OOD) robustness beyond the training distribution. Our code is available at:
https://github.com/iNLP-Lab/PEAR.