ChatPaper.aiChatPaper

Exploiter l'incertitude : Gradients de politique modulés par l'entropie pour des agents LLM à horizon long

Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents

September 11, 2025
papers.authors: Jiawei Wang, Jiacai Liu, Yuqian Fu, Yingru Li, Xintao Wang, Yuan Lin, Yu Yue, Lin Zhang, Yang Wang, Ke Wang
cs.AI

papers.abstract

Dans les tâches à long terme, les agents récents basés sur des modèles de langage de grande taille (LLMs) rencontrent un défi majeur : les récompenses rares et basées sur les résultats rendent difficile l'attribution de crédit aux étapes intermédiaires. Les méthodes précédentes se concentrent principalement sur la création de signaux de récompense denses pour guider l'apprentissage, soit par des techniques traditionnelles d'apprentissage par renforcement comme l'apprentissage par renforcement inverse, soit en utilisant des modèles de récompense de processus pour un retour d'information étape par étape. Dans cet article, nous identifions un problème fondamental dans la dynamique d'apprentissage des LLMs : l'amplitude des gradients de politique est intrinsèquement couplée à l'entropie, ce qui entraîne des mises à jour inefficaces et petites pour les actions correctes et confiantes, et potentiellement déstabilise les mises à jour importantes pour les actions incertaines. Pour résoudre ce problème, nous proposons les Gradients de Politique Modulés par l'Entropie (EMPG), un cadre qui recalibre le signal d'apprentissage en fonction de l'incertitude étape par étape et du résultat final de la tâche. EMPG amplifie les mises à jour pour les actions correctes et confiantes, pénalise les erreurs confiantes, et atténue les mises à jour des étapes incertaines pour stabiliser l'exploration. Nous introduisons également un terme de bonus pour la clarté future qui encourage les agents à trouver des chemins de solution plus prévisibles. À travers des expériences approfondies sur trois tâches d'agent complexes, WebShop, ALFWorld et Deep Search, nous démontrons qu'EMPG obtient des gains de performance substantiels et surpasse significativement les bases solides de gradients de politique. La page du projet est disponible à l'adresse https://empgseed-seed.github.io/.
English
In long-horizon tasks, recent agents based on Large Language Models (LLMs) face a significant challenge that sparse, outcome-based rewards make it difficult to assign credit to intermediate steps. Previous methods mainly focus on creating dense reward signals to guide learning, either through traditional reinforcement learning techniques like inverse reinforcement learning or by using Process Reward Models for step-by-step feedback. In this paper, we identify a fundamental problem in the learning dynamics of LLMs: the magnitude of policy gradients is inherently coupled with the entropy, which leads to inefficient small updates for confident correct actions and potentially destabilizes large updates for uncertain ones. To resolve this, we propose Entropy-Modulated Policy Gradients (EMPG), a framework that re-calibrates the learning signal based on step-wise uncertainty and the final task outcome. EMPG amplifies updates for confident correct actions, penalizes confident errors, and attenuates updates from uncertain steps to stabilize exploration. We further introduce a bonus term for future clarity that encourages agents to find more predictable solution paths. Through comprehensive experiments on three challenging agent tasks, WebShop, ALFWorld, and Deep Search, we demonstrate that EMPG achieves substantial performance gains and significantly outperforms strong policy gradient baselines. Project page is at https://empgseed-seed.github.io/
PDF332September 12, 2025