불확실성 활용: 장기적 LLM 에이전트를 위한 엔트로피 조정 정책 그래디언트
Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents
September 11, 2025
저자: Jiawei Wang, Jiacai Liu, Yuqian Fu, Yingru Li, Xintao Wang, Yuan Lin, Yu Yue, Lin Zhang, Yang Wang, Ke Wang
cs.AI
초록
장기적 과제에서 대규모 언어 모델(LLMs) 기반의 최신 에이전트들은 희소하고 결과 기반의 보상이 중간 단계에 대한 책임을 할당하기 어렵게 만드는 중요한 문제에 직면해 있습니다. 기존 방법들은 주로 역강화 학습과 같은 전통적인 강화 학습 기법을 통해 또는 단계별 피드백을 제공하는 프로세스 보상 모델을 사용하여 조밀한 보상 신호를 생성하는 데 초점을 맞추었습니다. 본 논문에서 우리는 LLMs의 학습 역학에 내재된 근본적인 문제를 확인했습니다: 정책 그래디언트의 크기가 엔트로피와 본질적으로 결합되어 있어, 확신에 찬 올바른 행동에 대해서는 비효율적으로 작은 업데이트가 발생하고, 불확실한 행동에 대해서는 잠재적으로 불안정한 큰 업데이트가 발생합니다. 이를 해결하기 위해, 우리는 단계별 불확실성과 최종 과제 결과를 기반으로 학습 신호를 재조정하는 엔트로피 조정 정책 그래디언트(EMPG) 프레임워크를 제안합니다. EMPG는 확신에 찬 올바른 행동에 대한 업데이트를 증폭시키고, 확신에 찬 오류를 벌하며, 불확실한 단계에서의 업데이트를 감쇠시켜 탐색을 안정화합니다. 또한, 우리는 에이전트가 더 예측 가능한 해결 경로를 찾도록 장려하는 미래 명확성에 대한 보너스 항목을 도입했습니다. WebShop, ALFWorld, Deep Search라는 세 가지 도전적인 에이전트 과제에 대한 포괄적인 실험을 통해, EMPG가 상당한 성능 향상을 달성하고 강력한 정책 그래디언트 베이스라인을 크게 능가함을 입증했습니다. 프로젝트 페이지는 https://empgseed-seed.github.io/에서 확인할 수 있습니다.
English
In long-horizon tasks, recent agents based on Large Language Models (LLMs)
face a significant challenge that sparse, outcome-based rewards make it
difficult to assign credit to intermediate steps. Previous methods mainly focus
on creating dense reward signals to guide learning, either through traditional
reinforcement learning techniques like inverse reinforcement learning or by
using Process Reward Models for step-by-step feedback. In this paper, we
identify a fundamental problem in the learning dynamics of LLMs: the magnitude
of policy gradients is inherently coupled with the entropy, which leads to
inefficient small updates for confident correct actions and potentially
destabilizes large updates for uncertain ones. To resolve this, we propose
Entropy-Modulated Policy Gradients (EMPG), a framework that re-calibrates the
learning signal based on step-wise uncertainty and the final task outcome. EMPG
amplifies updates for confident correct actions, penalizes confident errors,
and attenuates updates from uncertain steps to stabilize exploration. We
further introduce a bonus term for future clarity that encourages agents to
find more predictable solution paths. Through comprehensive experiments on
three challenging agent tasks, WebShop, ALFWorld, and Deep Search, we
demonstrate that EMPG achieves substantial performance gains and significantly
outperforms strong policy gradient baselines. Project page is at
https://empgseed-seed.github.io/