ChatPaper.aiChatPaper

PEAR : Récompense basée sur l'entropie de phase pour un raisonnement efficace

PEAR: Phase Entropy Aware Reward for Efficient Reasoning

October 9, 2025
papers.authors: Chen Huang, Wei Lu, Wenxuan Zhang
cs.AI

papers.abstract

Les modèles de raisonnement à grande échelle (LRMs) ont obtenu des performances impressionnantes sur des tâches de raisonnement complexes en générant des explications détaillées de type chaîne de pensée (CoT). Cependant, ces réponses sont souvent excessivement longues, contenant des étapes de raisonnement redondantes qui augmentent les coûts d'inférence et réduisent la praticité. Contrôler la longueur du raisonnement généré sans sacrifier la précision reste un défi ouvert. À travers une analyse empirique systématique, nous révélons une corrélation positive constante entre l'entropie du modèle et la longueur des réponses à différentes étapes du raisonnement, observée dans divers LRMs : la phase de réflexion présente une entropie plus élevée, reflétant un comportement exploratoire avec des réponses plus longues, tandis que la phase de réponse finale montre une entropie plus faible, indiquant une solution plus déterministe. Cette observation suggère que l'entropie à différentes étapes du raisonnement peut servir de levier pour équilibrer concision et performance. Sur la base de cette idée, cet article introduit Phase Entropy Aware Reward (PEAR), un mécanisme de récompense qui intègre l'entropie dépendante de la phase dans la conception des récompenses. Au lieu de traiter tous les tokens de manière uniforme, PEAR pénalise l'entropie excessive pendant la phase de réflexion tout en permettant une exploration modérée lors de la phase de réponse finale, ce qui encourage les modèles à générer des traces de raisonnement concises tout en conservant une flexibilité suffisante pour résoudre la tâche correctement. Cela permet un contrôle adaptatif de la longueur des réponses sans dépendre d'objectifs de longueur explicites ou de règles de troncation rigides. Des expériences approfondies sur quatre benchmarks démontrent que PEAR réduit systématiquement la longueur des réponses tout en maintenant une précision compétitive, quelle que soit l'échelle du modèle. De plus, PEAR montre une robustesse hors distribution (OOD) forte au-delà de la distribution d'entraînement. Notre code est disponible à l'adresse : https://github.com/iNLP-Lab/PEAR.
English
Large Reasoning Models (LRMs) have achieved impressive performance on complex reasoning tasks by generating detailed chain-of-thought (CoT) explanations. However, these responses are often excessively long, containing redundant reasoning steps that inflate inference cost and reduce usability. Controlling the length of generated reasoning without sacrificing accuracy remains an open challenge. Through a systematic empirical analysis, we reveal a consistent positive correlation between model entropy and response length at different reasoning stages across diverse LRMs: the thinking phase exhibits higher entropy, reflecting exploratory behavior of longer responses, while the final answer phase shows lower entropy, indicating a more deterministic solution. This observation suggests that entropy at different reasoning stages can serve as a control knob for balancing conciseness and performance. Based on this insight, this paper introduces Phase Entropy Aware Reward (PEAR), a reward mechanism that incorporating phase-dependent entropy into the reward design. Instead of treating all tokens uniformly, PEAR penalize excessive entropy during the thinking phase and allowing moderate exploration at the final answer phase, which encourages models to generate concise reasoning traces that retain sufficient flexibility to solve the task correctly. This enables adaptive control of response length without relying on explicit length targets or rigid truncation rules. Extensive experiments across four benchmarks demonstrate that PEAR consistently reduces response length while sustaining competitive accuracy across model scales. In addition, PEAR demonstrates strong out-of-distribution (OOD) robustness beyond the training distribution. Our code is available at: https://github.com/iNLP-Lab/PEAR.
PDF72October 14, 2025