不確実性の活用:長期的視野を持つLLMエージェントのためのエントロピー調整型ポリシー勾配法
Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents
September 11, 2025
著者: Jiawei Wang, Jiacai Liu, Yuqian Fu, Yingru Li, Xintao Wang, Yuan Lin, Yu Yue, Lin Zhang, Yang Wang, Ke Wang
cs.AI
要旨
長期的なタスクにおいて、大規模言語モデル(LLMs)に基づく最近のエージェントは、まばらで結果ベースの報酬が中間ステップへの信用割り当てを困難にするという重大な課題に直面している。従来の手法は、主に密な報酬信号を作成して学習を導くことに焦点を当てており、逆強化学習のような伝統的な強化学習技術や、ステップごとのフィードバックを提供するプロセス報酬モデルを使用している。本論文では、LLMsの学習ダイナミクスにおける根本的な問題を特定する:ポリシー勾配の大きさが本質的にエントロピーと結合しており、これにより確信を持った正しい行動に対する非効率的な小さな更新が生じ、不確実な行動に対する大きな更新が不安定化する可能性がある。これを解決するために、ステップごとの不確実性と最終的なタスク結果に基づいて学習信号を再調整するエントロピー調整ポリシー勾配(EMPG)を提案する。EMPGは、確信を持った正しい行動に対する更新を増幅し、確信を持った誤りを罰し、不確実なステップからの更新を減衰させて探索を安定化する。さらに、将来の明確さを促進するボーナス項を導入し、エージェントがより予測可能な解決策を見つけることを奨励する。WebShop、ALFWorld、Deep Searchという3つの挑戦的なエージェントタスクにおける包括的な実験を通じて、EMPGが大幅な性能向上を達成し、強力なポリシー勾配ベースラインを大幅に上回ることを示す。プロジェクトページはhttps://empgseed-seed.github.io/にある。
English
In long-horizon tasks, recent agents based on Large Language Models (LLMs)
face a significant challenge that sparse, outcome-based rewards make it
difficult to assign credit to intermediate steps. Previous methods mainly focus
on creating dense reward signals to guide learning, either through traditional
reinforcement learning techniques like inverse reinforcement learning or by
using Process Reward Models for step-by-step feedback. In this paper, we
identify a fundamental problem in the learning dynamics of LLMs: the magnitude
of policy gradients is inherently coupled with the entropy, which leads to
inefficient small updates for confident correct actions and potentially
destabilizes large updates for uncertain ones. To resolve this, we propose
Entropy-Modulated Policy Gradients (EMPG), a framework that re-calibrates the
learning signal based on step-wise uncertainty and the final task outcome. EMPG
amplifies updates for confident correct actions, penalizes confident errors,
and attenuates updates from uncertain steps to stabilize exploration. We
further introduce a bonus term for future clarity that encourages agents to
find more predictable solution paths. Through comprehensive experiments on
three challenging agent tasks, WebShop, ALFWorld, and Deep Search, we
demonstrate that EMPG achieves substantial performance gains and significantly
outperforms strong policy gradient baselines. Project page is at
https://empgseed-seed.github.io/