ChatPaper.aiChatPaper

EPO: Otimização de Políticas Regularizada por Entropia para Agentes de LLM Aprendizado por Reforço

EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

September 26, 2025
Autores: Xu Wujiang, Wentian Zhao, Zhenting Wang, Li Yu-Jhe, Jin Can, Jin Mingyu, Mei Kai, Wan Kun, Metaxas Dimitris
cs.AI

Resumo

Treinar agentes de LLM em ambientes de múltiplos turnos com recompensas esparsas, onde completar uma única tarefa requer 30+ turnos de interação dentro de um episódio, apresenta um desafio fundamental para o aprendizado por reforço. Identificamos um modo de falha crítico exclusivo desse cenário: a falha em cascata de exploração-exploração. Essa cascata começa com a convergência prematura da política em estágios iniciais, onde o feedback esparso faz com que os agentes se comprometam com estratégias falhas e de baixa entropia. Posteriormente, os agentes entram em colapso da política em estágios avançados, onde a regularização convencional de entropia se torna contraproducente, promovendo uma exploração caótica que desestabiliza o treinamento. Propomos a Otimização de Política com Regularização de Entropia (EPO), uma estrutura geral que quebra esse ciclo de falha por meio de três mecanismos sinérgicos: (1) adoção de regularização de entropia em cenários de múltiplos turnos para melhorar a exploração, (2) um regularizador de suavização de entropia que limita a entropia da política dentro de médias históricas para evitar flutuações abruptas, e (3) ponderação adaptativa baseada em fases que equilibra exploração e exploração ao longo do treinamento. Nossa análise justifica que a EPO garante uma diminuição monotônica da variância da entropia enquanto mantém a convergência. A EPO alcança uma melhoria de desempenho de até 152% no ScienceWorld e até 19,8% no ALFWorld. Nosso trabalho demonstra que cenários de múltiplos turnos com recompensas esparsas exigem um controle de entropia fundamentalmente diferente do RL tradicional, com amplas implicações para o treinamento de agentes LLM.
English
Training LLM agents in multi-turn environments with sparse rewards, where completing a single task requires 30+ turns of interaction within an episode, presents a fundamental challenge for reinforcement learning. We identify a critical failure mode unique to this setting: the exploration-exploitation cascade failure. This cascade begins with early-stage policy premature convergence, where sparse feedback causes agents to commit to flawed, low-entropy strategies. Subsequently, agents enter late-stage policy collapse, where conventional entropy regularization becomes counterproductive, promoting chaotic exploration that destabilizes training. We propose Entropy-regularized Policy Optimization (EPO), a general framework that breaks this failure cycle through three synergistic mechanisms: (1) adopting entropy regularization in multi-turn settings to enhance exploration, (2) an entropy smoothing regularizer that bounds policy entropy within historical averages to prevent abrupt fluctuations, and (3) adaptive phase-based weighting that balances exploration and exploitation across training. Our analysis justifies that EPO guarantees monotonically decreasing entropy variance while maintaining convergence. EPO achieves up to 152% performance improvement on ScienceWorld and up to 19.8% on ALFWorld. Our work demonstrates that multi-turn sparse-reward settings require fundamentally different entropy control than traditional RL, with broad implications for LLM agent training.
PDF1312September 29, 2025