Omgaan met onzekerheid: Entropie-gemoduleerde beleidsgradiënten voor LLM-agenten met lange-termijnhorizon
Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents
September 11, 2025
Auteurs: Jiawei Wang, Jiacai Liu, Yuqian Fu, Yingru Li, Xintao Wang, Yuan Lin, Yu Yue, Lin Zhang, Yang Wang, Ke Wang
cs.AI
Samenvatting
Bij langetermijntaken ondervinden recente agents gebaseerd op Large Language Models (LLMs) een aanzienlijke uitdaging: schaarse, op resultaten gebaseerde beloningen maken het moeilijk om credits toe te kennen aan tussenliggende stappen. Eerdere methoden richten zich voornamelijk op het creëren van dichte beloningssignalen om het leren te begeleiden, hetzij via traditionele reinforcement learning-technieken zoals inverse reinforcement learning, hetzij door gebruik te maken van Process Reward Models voor stap-voor-stap feedback. In dit artikel identificeren we een fundamenteel probleem in de leer dynamiek van LLMs: de grootte van de policy gradients is inherent gekoppeld aan de entropie, wat leidt tot inefficiënt kleine updates voor zelfverzekerde correcte acties en mogelijk destabiliserende grote updates voor onzekere acties. Om dit op te lossen, stellen we Entropy-Modulated Policy Gradients (EMPG) voor, een raamwerk dat het leersignaal herkalibreert op basis van stap-voor-stap onzekerheid en het uiteindelijke taakresultaat. EMPG versterkt updates voor zelfverzekerde correcte acties, bestraft zelfverzekerde fouten, en dempt updates van onzekere stappen om de exploratie te stabiliseren. We introduceren verder een bonusterm voor toekomstige duidelijkheid die agents aanmoedigt om meer voorspelbare oplossingspaden te vinden. Door uitgebreide experimenten op drie uitdagende agenttaken, WebShop, ALFWorld en Deep Search, tonen we aan dat EMPG aanzienlijke prestatieverbeteringen bereikt en sterk presteert in vergelijking met sterke policy gradient-baselines. De projectpagina is te vinden op https://empgseed-seed.github.io/.
English
In long-horizon tasks, recent agents based on Large Language Models (LLMs)
face a significant challenge that sparse, outcome-based rewards make it
difficult to assign credit to intermediate steps. Previous methods mainly focus
on creating dense reward signals to guide learning, either through traditional
reinforcement learning techniques like inverse reinforcement learning or by
using Process Reward Models for step-by-step feedback. In this paper, we
identify a fundamental problem in the learning dynamics of LLMs: the magnitude
of policy gradients is inherently coupled with the entropy, which leads to
inefficient small updates for confident correct actions and potentially
destabilizes large updates for uncertain ones. To resolve this, we propose
Entropy-Modulated Policy Gradients (EMPG), a framework that re-calibrates the
learning signal based on step-wise uncertainty and the final task outcome. EMPG
amplifies updates for confident correct actions, penalizes confident errors,
and attenuates updates from uncertain steps to stabilize exploration. We
further introduce a bonus term for future clarity that encourages agents to
find more predictable solution paths. Through comprehensive experiments on
three challenging agent tasks, WebShop, ALFWorld, and Deep Search, we
demonstrate that EMPG achieves substantial performance gains and significantly
outperforms strong policy gradient baselines. Project page is at
https://empgseed-seed.github.io/