EPO: Otimização de Políticas Regularizada por Entropia para Agentes de LLM Aprendizado por Reforço
EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning
September 26, 2025
Autores: Xu Wujiang, Wentian Zhao, Zhenting Wang, Li Yu-Jhe, Jin Can, Jin Mingyu, Mei Kai, Wan Kun, Metaxas Dimitris
cs.AI
Resumo
Treinar agentes de LLM em ambientes de múltiplos turnos com recompensas esparsas, onde
completar uma única tarefa requer 30+ turnos de interação dentro de um episódio,
apresenta um desafio fundamental para o aprendizado por reforço. Identificamos um
modo de falha crítico exclusivo desse cenário: a falha em cascata de exploração-exploração.
Essa cascata começa com a convergência prematura da política em estágios iniciais,
onde o feedback esparso faz com que os agentes se comprometam com estratégias
falhas e de baixa entropia. Posteriormente, os agentes entram em colapso da política
em estágios avançados, onde a regularização convencional de entropia se torna
contraproducente, promovendo uma exploração caótica que desestabiliza o treinamento.
Propomos a Otimização de Política com Regularização de Entropia (EPO), uma estrutura
geral que quebra esse ciclo de falha por meio de três mecanismos sinérgicos: (1) adoção
de regularização de entropia em cenários de múltiplos turnos para melhorar a exploração,
(2) um regularizador de suavização de entropia que limita a entropia da política dentro
de médias históricas para evitar flutuações abruptas, e (3) ponderação adaptativa baseada
em fases que equilibra exploração e exploração ao longo do treinamento. Nossa análise
justifica que a EPO garante uma diminuição monotônica da variância da entropia enquanto
mantém a convergência. A EPO alcança uma melhoria de desempenho de até 152% no
ScienceWorld e até 19,8% no ALFWorld. Nosso trabalho demonstra que cenários de
múltiplos turnos com recompensas esparsas exigem um controle de entropia
fundamentalmente diferente do RL tradicional, com amplas implicações para o
treinamento de agentes LLM.
English
Training LLM agents in multi-turn environments with sparse rewards, where
completing a single task requires 30+ turns of interaction within an episode,
presents a fundamental challenge for reinforcement learning. We identify a
critical failure mode unique to this setting: the exploration-exploitation
cascade failure. This cascade begins with early-stage policy premature
convergence, where sparse feedback causes agents to commit to flawed,
low-entropy strategies. Subsequently, agents enter late-stage policy collapse,
where conventional entropy regularization becomes counterproductive, promoting
chaotic exploration that destabilizes training. We propose Entropy-regularized
Policy Optimization (EPO), a general framework that breaks this failure cycle
through three synergistic mechanisms: (1) adopting entropy regularization in
multi-turn settings to enhance exploration, (2) an entropy smoothing
regularizer that bounds policy entropy within historical averages to prevent
abrupt fluctuations, and (3) adaptive phase-based weighting that balances
exploration and exploitation across training. Our analysis justifies that EPO
guarantees monotonically decreasing entropy variance while maintaining
convergence. EPO achieves up to 152% performance improvement on ScienceWorld
and up to 19.8% on ALFWorld. Our work demonstrates that multi-turn
sparse-reward settings require fundamentally different entropy control than
traditional RL, with broad implications for LLM agent training.