Использование неопределенности: градиенты стратегии с модуляцией энтропии для агентов на основе LLM с длительным горизонтом планирования
Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents
September 11, 2025
Авторы: Jiawei Wang, Jiacai Liu, Yuqian Fu, Yingru Li, Xintao Wang, Yuan Lin, Yu Yue, Lin Zhang, Yang Wang, Ke Wang
cs.AI
Аннотация
В задачах с длительным горизонтом современные агенты, основанные на больших языковых моделях (LLM), сталкиваются с существенной проблемой: разреженные, основанные на результате вознаграждения затрудняют распределение заслуг за промежуточные шаги. Предыдущие методы в основном сосредоточены на создании плотных сигналов вознаграждения для направления обучения, либо с использованием традиционных методов обучения с подкреплением, таких как обратное обучение с подкреплением, либо с применением моделей пошагового вознаграждения (Process Reward Models) для обратной связи на каждом шаге. В данной работе мы выявляем фундаментальную проблему в динамике обучения LLM: величина градиентов политики изначально связана с энтропией, что приводит к неэффективно малым обновлениям для уверенно правильных действий и потенциально дестабилизирует крупные обновления для неопределенных действий. Для решения этой проблемы мы предлагаем Entropy-Modulated Policy Gradients (EMPG) — фреймворк, который перекалибрует сигнал обучения на основе пошаговой неопределенности и конечного результата задачи. EMPG усиливает обновления для уверенно правильных действий, наказывает за уверенные ошибки и ослабляет обновления от неопределенных шагов для стабилизации исследования. Мы также вводим дополнительный бонус за будущую ясность, который побуждает агентов находить более предсказуемые пути решения. В ходе всесторонних экспериментов на трех сложных задачах для агентов — WebShop, ALFWorld и Deep Search — мы демонстрируем, что EMPG достигает значительного улучшения производительности и существенно превосходит сильные базовые методы градиентов политики. Страница проекта доступна по адресу https://empgseed-seed.github.io/.
English
In long-horizon tasks, recent agents based on Large Language Models (LLMs)
face a significant challenge that sparse, outcome-based rewards make it
difficult to assign credit to intermediate steps. Previous methods mainly focus
on creating dense reward signals to guide learning, either through traditional
reinforcement learning techniques like inverse reinforcement learning or by
using Process Reward Models for step-by-step feedback. In this paper, we
identify a fundamental problem in the learning dynamics of LLMs: the magnitude
of policy gradients is inherently coupled with the entropy, which leads to
inefficient small updates for confident correct actions and potentially
destabilizes large updates for uncertain ones. To resolve this, we propose
Entropy-Modulated Policy Gradients (EMPG), a framework that re-calibrates the
learning signal based on step-wise uncertainty and the final task outcome. EMPG
amplifies updates for confident correct actions, penalizes confident errors,
and attenuates updates from uncertain steps to stabilize exploration. We
further introduce a bonus term for future clarity that encourages agents to
find more predictable solution paths. Through comprehensive experiments on
three challenging agent tasks, WebShop, ALFWorld, and Deep Search, we
demonstrate that EMPG achieves substantial performance gains and significantly
outperforms strong policy gradient baselines. Project page is at
https://empgseed-seed.github.io/