EPO: Optimización de Políticas Regularizada por Entropía para Agentes de Modelos de Lenguaje de Gran Escala Aprendizaje por Refuerzo
EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning
September 26, 2025
Autores: Xu Wujiang, Wentian Zhao, Zhenting Wang, Li Yu-Jhe, Jin Can, Jin Mingyu, Mei Kai, Wan Kun, Metaxas Dimitris
cs.AI
Resumen
El entrenamiento de agentes de modelos de lenguaje grandes (LLM) en entornos de múltiples turnos con recompensas escasas, donde completar una sola tarea requiere más de 30 interacciones dentro de un episodio, presenta un desafío fundamental para el aprendizaje por refuerzo. Identificamos un modo de fallo crítico único en este contexto: el fallo en cascada de exploración-explotación. Esta cascada comienza con la convergencia prematura de la política en etapas iniciales, donde la retroalimentación escasa lleva a los agentes a adoptar estrategias defectuosas y de baja entropía. Posteriormente, los agentes entran en un colapso de la política en etapas avanzadas, donde la regularización convencional de la entropía se vuelve contraproducente, promoviendo una exploración caótica que desestabiliza el entrenamiento. Proponemos la Optimización de Políticas con Regularización de Entropía (EPO, por sus siglas en inglés), un marco general que rompe este ciclo de fallo mediante tres mecanismos sinérgicos: (1) la adopción de regularización de entropía en entornos de múltiples turnos para mejorar la exploración, (2) un regularizador de suavizado de entropía que limita la entropía de la política dentro de promedios históricos para evitar fluctuaciones abruptas, y (3) una ponderación adaptativa basada en fases que equilibra la exploración y la explotación durante el entrenamiento. Nuestro análisis justifica que EPO garantiza una varianza de entropía monótonamente decreciente mientras mantiene la convergencia. EPO logra una mejora de rendimiento de hasta el 152% en ScienceWorld y hasta el 19.8% en ALFWorld. Nuestro trabajo demuestra que los entornos de múltiples turnos con recompensas escasas requieren un control de entropía fundamentalmente diferente al del aprendizaje por refuerzo tradicional, con implicaciones amplias para el entrenamiento de agentes LLM.
English
Training LLM agents in multi-turn environments with sparse rewards, where
completing a single task requires 30+ turns of interaction within an episode,
presents a fundamental challenge for reinforcement learning. We identify a
critical failure mode unique to this setting: the exploration-exploitation
cascade failure. This cascade begins with early-stage policy premature
convergence, where sparse feedback causes agents to commit to flawed,
low-entropy strategies. Subsequently, agents enter late-stage policy collapse,
where conventional entropy regularization becomes counterproductive, promoting
chaotic exploration that destabilizes training. We propose Entropy-regularized
Policy Optimization (EPO), a general framework that breaks this failure cycle
through three synergistic mechanisms: (1) adopting entropy regularization in
multi-turn settings to enhance exploration, (2) an entropy smoothing
regularizer that bounds policy entropy within historical averages to prevent
abrupt fluctuations, and (3) adaptive phase-based weighting that balances
exploration and exploitation across training. Our analysis justifies that EPO
guarantees monotonically decreasing entropy variance while maintaining
convergence. EPO achieves up to 152% performance improvement on ScienceWorld
and up to 19.8% on ALFWorld. Our work demonstrates that multi-turn
sparse-reward settings require fundamentally different entropy control than
traditional RL, with broad implications for LLM agent training.