Aproveitando a Incerteza: Gradientes de Política Modulados por Entropia para Agentes de LLM de Longo Horizonte
Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents
September 11, 2025
Autores: Jiawei Wang, Jiacai Liu, Yuqian Fu, Yingru Li, Xintao Wang, Yuan Lin, Yu Yue, Lin Zhang, Yang Wang, Ke Wang
cs.AI
Resumo
Em tarefas de longo prazo, agentes recentes baseados em Modelos de Linguagem de Grande Escala (LLMs) enfrentam um desafio significativo: recompensas esparsas e baseadas em resultados dificultam a atribuição de crédito a etapas intermediárias. Métodos anteriores concentram-se principalmente na criação de sinais de recompensa densos para orientar o aprendizado, seja por meio de técnicas tradicionais de aprendizado por reforço, como aprendizado por reforço inverso, ou utilizando Modelos de Recompensa de Processo para feedback passo a passo. Neste artigo, identificamos um problema fundamental na dinâmica de aprendizado dos LLMs: a magnitude dos gradientes da política está intrinsecamente acoplada à entropia, o que leva a atualizações pequenas e ineficientes para ações corretas confiantes e potencialmente desestabiliza grandes atualizações para ações incertas. Para resolver isso, propomos Gradientes de Política Modulados por Entropia (EMPG), uma estrutura que recalibra o sinal de aprendizado com base na incerteza passo a passo e no resultado final da tarefa. O EMPG amplifica atualizações para ações corretas confiantes, penaliza erros confiantes e atenua atualizações de etapas incertas para estabilizar a exploração. Além disso, introduzimos um termo de bônus para clareza futura que incentiva os agentes a encontrar caminhos de solução mais previsíveis. Por meio de experimentos abrangentes em três tarefas desafiadoras de agentes — WebShop, ALFWorld e Deep Search — demonstramos que o EMPG alcança ganhos substanciais de desempenho e supera significativamente as linhas de base de gradientes de política. A página do projeto está disponível em https://empgseed-seed.github.io/.
English
In long-horizon tasks, recent agents based on Large Language Models (LLMs)
face a significant challenge that sparse, outcome-based rewards make it
difficult to assign credit to intermediate steps. Previous methods mainly focus
on creating dense reward signals to guide learning, either through traditional
reinforcement learning techniques like inverse reinforcement learning or by
using Process Reward Models for step-by-step feedback. In this paper, we
identify a fundamental problem in the learning dynamics of LLMs: the magnitude
of policy gradients is inherently coupled with the entropy, which leads to
inefficient small updates for confident correct actions and potentially
destabilizes large updates for uncertain ones. To resolve this, we propose
Entropy-Modulated Policy Gradients (EMPG), a framework that re-calibrates the
learning signal based on step-wise uncertainty and the final task outcome. EMPG
amplifies updates for confident correct actions, penalizes confident errors,
and attenuates updates from uncertain steps to stabilize exploration. We
further introduce a bonus term for future clarity that encourages agents to
find more predictable solution paths. Through comprehensive experiments on
three challenging agent tasks, WebShop, ALFWorld, and Deep Search, we
demonstrate that EMPG achieves substantial performance gains and significantly
outperforms strong policy gradient baselines. Project page is at
https://empgseed-seed.github.io/