Aprovechando la incertidumbre: Gradientes de política modulados por entropía para agentes de LLM de horizonte largo
Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents
September 11, 2025
Autores: Jiawei Wang, Jiacai Liu, Yuqian Fu, Yingru Li, Xintao Wang, Yuan Lin, Yu Yue, Lin Zhang, Yang Wang, Ke Wang
cs.AI
Resumen
En tareas de horizonte largo, los agentes recientes basados en Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) enfrentan un desafío significativo: las recompensas escasas y basadas en resultados dificultan la asignación de crédito a los pasos intermedios. Los métodos anteriores se centran principalmente en crear señales de recompensa densas para guiar el aprendizaje, ya sea mediante técnicas tradicionales de aprendizaje por refuerzo, como el aprendizaje por refuerzo inverso, o utilizando Modelos de Recompensa de Proceso para retroalimentación paso a paso. En este artículo, identificamos un problema fundamental en la dinámica de aprendizaje de los LLMs: la magnitud de los gradientes de política está intrínsecamente acoplada con la entropía, lo que lleva a actualizaciones pequeñas e ineficientes para acciones correctas confiadas y potencialmente desestabiliza actualizaciones grandes para acciones inciertas. Para resolver esto, proponemos Gradientes de Política Modulados por Entropía (EMPG, por sus siglas en inglés), un marco que recalibra la señal de aprendizaje basándose en la incertidumbre paso a paso y el resultado final de la tarea. EMPG amplifica las actualizaciones para acciones correctas confiadas, penaliza los errores confiados y atenúa las actualizaciones de pasos inciertos para estabilizar la exploración. Además, introducimos un término de bonificación para la claridad futura que incentiva a los agentes a encontrar caminos de solución más predecibles. A través de experimentos exhaustivos en tres tareas desafiantes para agentes, WebShop, ALFWorld y Deep Search, demostramos que EMPG logra mejoras sustanciales en el rendimiento y supera significativamente a las líneas base de gradientes de política. La página del proyecto está disponible en https://empgseed-seed.github.io/.
English
In long-horizon tasks, recent agents based on Large Language Models (LLMs)
face a significant challenge that sparse, outcome-based rewards make it
difficult to assign credit to intermediate steps. Previous methods mainly focus
on creating dense reward signals to guide learning, either through traditional
reinforcement learning techniques like inverse reinforcement learning or by
using Process Reward Models for step-by-step feedback. In this paper, we
identify a fundamental problem in the learning dynamics of LLMs: the magnitude
of policy gradients is inherently coupled with the entropy, which leads to
inefficient small updates for confident correct actions and potentially
destabilizes large updates for uncertain ones. To resolve this, we propose
Entropy-Modulated Policy Gradients (EMPG), a framework that re-calibrates the
learning signal based on step-wise uncertainty and the final task outcome. EMPG
amplifies updates for confident correct actions, penalizes confident errors,
and attenuates updates from uncertain steps to stabilize exploration. We
further introduce a bonus term for future clarity that encourages agents to
find more predictable solution paths. Through comprehensive experiments on
three challenging agent tasks, WebShop, ALFWorld, and Deep Search, we
demonstrate that EMPG achieves substantial performance gains and significantly
outperforms strong policy gradient baselines. Project page is at
https://empgseed-seed.github.io/