Nutzen von Unsicherheit: Entropie-modulierte Policy-Gradienten für Langzeit-LLM-Agenten
Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents
September 11, 2025
papers.authors: Jiawei Wang, Jiacai Liu, Yuqian Fu, Yingru Li, Xintao Wang, Yuan Lin, Yu Yue, Lin Zhang, Yang Wang, Ke Wang
cs.AI
papers.abstract
Bei langfristigen Aufgaben stehen aktuelle Agenten, die auf Large Language Models (LLMs) basieren, vor einer erheblichen Herausforderung: spärliche, ergebnisbasierte Belohnungen erschweren die Zuordnung von Erfolg zu Zwischenschritten. Bisherige Methoden konzentrieren sich hauptsächlich darauf, dichte Belohnungssignale zu erzeugen, um das Lernen zu steuern, entweder durch traditionelle Reinforcement-Learning-Techniken wie Inverse Reinforcement Learning oder durch die Verwendung von Process Reward Models für schrittweise Rückmeldungen. In diesem Artikel identifizieren wir ein grundlegendes Problem in den Lern dynamiken von LLMs: Die Größe der Policy-Gradienten ist inhärent mit der Entropie gekoppelt, was zu ineffizient kleinen Aktualisierungen für selbstsichere, korrekte Aktionen führt und potenziell destabilisierende große Aktualisierungen für unsichere Aktionen verursacht. Um dies zu lösen, schlagen wir Entropy-Modulated Policy Gradients (EMPG) vor, ein Framework, das das Lernsignal basierend auf schrittweiser Unsicherheit und dem endgültigen Aufgaben ergebnis neu kalibriert. EMPG verstärkt Aktualisierungen für selbstsichere, korrekte Aktionen, bestraft selbstsichere Fehler und dämpft Aktualisierungen von unsicheren Schritten, um die Exploration zu stabilisieren. Wir führen zudem einen Bonus-Term für zukünftige Klarheit ein, der Agenten dazu anregt, vorhersehbarere Lösungswege zu finden. Durch umfassende Experimente zu drei anspruchsvollen Agenten-Aufgaben – WebShop, ALFWorld und Deep Search – zeigen wir, dass EMPG erhebliche Leistungssteigerungen erzielt und starke Policy-Gradienten-Baselines deutlich übertrifft. Die Projektseite ist unter https://empgseed-seed.github.io/ verfügbar.
English
In long-horizon tasks, recent agents based on Large Language Models (LLMs)
face a significant challenge that sparse, outcome-based rewards make it
difficult to assign credit to intermediate steps. Previous methods mainly focus
on creating dense reward signals to guide learning, either through traditional
reinforcement learning techniques like inverse reinforcement learning or by
using Process Reward Models for step-by-step feedback. In this paper, we
identify a fundamental problem in the learning dynamics of LLMs: the magnitude
of policy gradients is inherently coupled with the entropy, which leads to
inefficient small updates for confident correct actions and potentially
destabilizes large updates for uncertain ones. To resolve this, we propose
Entropy-Modulated Policy Gradients (EMPG), a framework that re-calibrates the
learning signal based on step-wise uncertainty and the final task outcome. EMPG
amplifies updates for confident correct actions, penalizes confident errors,
and attenuates updates from uncertain steps to stabilize exploration. We
further introduce a bonus term for future clarity that encourages agents to
find more predictable solution paths. Through comprehensive experiments on
three challenging agent tasks, WebShop, ALFWorld, and Deep Search, we
demonstrate that EMPG achieves substantial performance gains and significantly
outperforms strong policy gradient baselines. Project page is at
https://empgseed-seed.github.io/