PEAR: Recompensa Consciente de la Entropía de Fase para un Razonamiento Eficiente
PEAR: Phase Entropy Aware Reward for Efficient Reasoning
October 9, 2025
Autores: Chen Huang, Wei Lu, Wenxuan Zhang
cs.AI
Resumen
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) han logrado un rendimiento impresionante en tareas de razonamiento complejo al generar explicaciones detalladas de cadena de pensamiento (CoT, por sus siglas en inglés). Sin embargo, estas respuestas suelen ser excesivamente largas, conteniendo pasos de razonamiento redundantes que aumentan el costo de inferencia y reducen la usabilidad. Controlar la longitud del razonamiento generado sin sacrificar la precisión sigue siendo un desafío abierto. A través de un análisis empírico sistemático, revelamos una correlación positiva consistente entre la entropía del modelo y la longitud de la respuesta en diferentes etapas de razonamiento en diversos LRMs: la fase de pensamiento exhibe una entropía más alta, reflejando un comportamiento exploratorio de respuestas más largas, mientras que la fase de respuesta final muestra una entropía más baja, indicando una solución más determinista. Esta observación sugiere que la entropía en diferentes etapas de razonamiento puede servir como un mecanismo de control para equilibrar la concisión y el rendimiento. Basándonos en esta idea, este artículo introduce el Mecanismo de Recompensa Consciente de la Entropía por Fase (PEAR, por sus siglas en inglés), un mecanismo de recompensa que incorpora la entropía dependiente de la fase en el diseño de la recompensa. En lugar de tratar todos los tokens de manera uniforme, PEAR penaliza la entropía excesiva durante la fase de pensamiento y permite una exploración moderada en la fase de respuesta final, lo que fomenta que los modelos generen trazas de razonamiento concisas que retienen suficiente flexibilidad para resolver la tarea correctamente. Esto permite un control adaptativo de la longitud de la respuesta sin depender de objetivos de longitud explícitos o reglas de truncamiento rígidas. Experimentos extensos en cuatro benchmarks demuestran que PEAR reduce consistentemente la longitud de la respuesta mientras mantiene una precisión competitiva en diferentes escalas de modelos. Además, PEAR demuestra una fuerte robustez fuera de distribución (OOD, por sus siglas en inglés) más allá de la distribución de entrenamiento. Nuestro código está disponible en: https://github.com/iNLP-Lab/PEAR.
English
Large Reasoning Models (LRMs) have achieved impressive performance on complex
reasoning tasks by generating detailed chain-of-thought (CoT) explanations.
However, these responses are often excessively long, containing redundant
reasoning steps that inflate inference cost and reduce usability. Controlling
the length of generated reasoning without sacrificing accuracy remains an open
challenge. Through a systematic empirical analysis, we reveal a consistent
positive correlation between model entropy and response length at different
reasoning stages across diverse LRMs: the thinking phase exhibits higher
entropy, reflecting exploratory behavior of longer responses, while the final
answer phase shows lower entropy, indicating a more deterministic solution.
This observation suggests that entropy at different reasoning stages can serve
as a control knob for balancing conciseness and performance. Based on this
insight, this paper introduces Phase Entropy Aware Reward (PEAR), a reward
mechanism that incorporating phase-dependent entropy into the reward design.
Instead of treating all tokens uniformly, PEAR penalize excessive entropy
during the thinking phase and allowing moderate exploration at the final answer
phase, which encourages models to generate concise reasoning traces that retain
sufficient flexibility to solve the task correctly. This enables adaptive
control of response length without relying on explicit length targets or rigid
truncation rules. Extensive experiments across four benchmarks demonstrate that
PEAR consistently reduces response length while sustaining competitive accuracy
across model scales. In addition, PEAR demonstrates strong out-of-distribution
(OOD) robustness beyond the training distribution. Our code is available at:
https://github.com/iNLP-Lab/PEAR.