Sfruttare l'incertezza: Gradienti di Politica Modulati dall'Entropia per Agenti LLM a Lungo Orizzonte
Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents
September 11, 2025
Autori: Jiawei Wang, Jiacai Liu, Yuqian Fu, Yingru Li, Xintao Wang, Yuan Lin, Yu Yue, Lin Zhang, Yang Wang, Ke Wang
cs.AI
Abstract
Nei compiti a lungo termine, i recenti agenti basati su Modelli Linguistici di Grande Scala (LLM) affrontano una sfida significativa: le ricompense sparse e basate sui risultati rendono difficile attribuire il merito ai passaggi intermedi. I metodi precedenti si concentrano principalmente sulla creazione di segnali di ricompensa densi per guidare l'apprendimento, sia attraverso tecniche tradizionali di apprendimento per rinforzo come l'apprendimento per rinforzo inverso, sia utilizzando Modelli di Ricompensa Processuale per un feedback passo-passo. In questo articolo, identifichiamo un problema fondamentale nella dinamica di apprendimento degli LLM: l'entità dei gradienti della politica è intrinsecamente accoppiata con l'entropia, il che porta a piccoli aggiornamenti inefficienti per azioni corrette e sicure, e potenzialmente destabilizza aggiornamenti ampi per azioni incerte. Per risolvere ciò, proponiamo i Gradienti della Politica Modulati dall'Entropia (EMPG), un framework che ricalibra il segnale di apprendimento basandosi sull'incertezza passo-passo e sul risultato finale del compito. L'EMPG amplifica gli aggiornamenti per azioni corrette e sicure, penalizza gli errori sicuri e attenua gli aggiornamenti derivanti da passaggi incerti per stabilizzare l'esplorazione. Introduciamo inoltre un termine bonus per la chiarezza futura che incoraggia gli agenti a trovare percorsi di soluzione più prevedibili. Attraverso esperimenti completi su tre compiti impegnativi per agenti, WebShop, ALFWorld e Deep Search, dimostriamo che l'EMPG ottiene miglioramenti sostanziali nelle prestazioni e supera significativamente i baseline dei gradienti della politica. La pagina del progetto è disponibile all'indirizzo https://empgseed-seed.github.io/.
English
In long-horizon tasks, recent agents based on Large Language Models (LLMs)
face a significant challenge that sparse, outcome-based rewards make it
difficult to assign credit to intermediate steps. Previous methods mainly focus
on creating dense reward signals to guide learning, either through traditional
reinforcement learning techniques like inverse reinforcement learning or by
using Process Reward Models for step-by-step feedback. In this paper, we
identify a fundamental problem in the learning dynamics of LLMs: the magnitude
of policy gradients is inherently coupled with the entropy, which leads to
inefficient small updates for confident correct actions and potentially
destabilizes large updates for uncertain ones. To resolve this, we propose
Entropy-Modulated Policy Gradients (EMPG), a framework that re-calibrates the
learning signal based on step-wise uncertainty and the final task outcome. EMPG
amplifies updates for confident correct actions, penalizes confident errors,
and attenuates updates from uncertain steps to stabilize exploration. We
further introduce a bonus term for future clarity that encourages agents to
find more predictable solution paths. Through comprehensive experiments on
three challenging agent tasks, WebShop, ALFWorld, and Deep Search, we
demonstrate that EMPG achieves substantial performance gains and significantly
outperforms strong policy gradient baselines. Project page is at
https://empgseed-seed.github.io/