EPO: Optimización de Políticas Regularizada por Entropía para Agentes de Modelos de Lenguaje de Gran Escala Aprendizaje por Refuerzo

Resumen

El entrenamiento de agentes de modelos de lenguaje grandes (LLM) en entornos de múltiples turnos con recompensas escasas, donde completar una sola tarea requiere más de 30 interacciones dentro de un episodio, presenta un desafío fundamental para el aprendizaje por refuerzo. Identificamos un modo de fallo crítico único en este contexto: el fallo en cascada de exploración-explotación. Esta cascada comienza con la convergencia prematura de la política en etapas iniciales, donde la retroalimentación escasa lleva a los agentes a adoptar estrategias defectuosas y de baja entropía. Posteriormente, los agentes entran en un colapso de la política en etapas avanzadas, donde la regularización convencional de la entropía se vuelve contraproducente, promoviendo una exploración caótica que desestabiliza el entrenamiento. Proponemos la Optimización de Políticas con Regularización de Entropía (EPO, por sus siglas en inglés), un marco general que rompe este ciclo de fallo mediante tres mecanismos sinérgicos: (1) la adopción de regularización de entropía en entornos de múltiples turnos para mejorar la exploración, (2) un regularizador de suavizado de entropía que limita la entropía de la política dentro de promedios históricos para evitar fluctuaciones abruptas, y (3) una ponderación adaptativa basada en fases que equilibra la exploración y la explotación durante el entrenamiento. Nuestro análisis justifica que EPO garantiza una varianza de entropía monótonamente decreciente mientras mantiene la convergencia. EPO logra una mejora de rendimiento de hasta el 152% en ScienceWorld y hasta el 19.8% en ALFWorld. Nuestro trabajo demuestra que los entornos de múltiples turnos con recompensas escasas requieren un control de entropía fundamentalmente diferente al del aprendizaje por refuerzo tradicional, con implicaciones amplias para el entrenamiento de agentes LLM.

English

Training LLM agents in multi-turn environments with sparse rewards, where completing a single task requires 30+ turns of interaction within an episode, presents a fundamental challenge for reinforcement learning. We identify a critical failure mode unique to this setting: the exploration-exploitation cascade failure. This cascade begins with early-stage policy premature convergence, where sparse feedback causes agents to commit to flawed, low-entropy strategies. Subsequently, agents enter late-stage policy collapse, where conventional entropy regularization becomes counterproductive, promoting chaotic exploration that destabilizes training. We propose Entropy-regularized Policy Optimization (EPO), a general framework that breaks this failure cycle through three synergistic mechanisms: (1) adopting entropy regularization in multi-turn settings to enhance exploration, (2) an entropy smoothing regularizer that bounds policy entropy within historical averages to prevent abrupt fluctuations, and (3) adaptive phase-based weighting that balances exploration and exploitation across training. Our analysis justifies that EPO guarantees monotonically decreasing entropy variance while maintaining convergence. EPO achieves up to 152% performance improvement on ScienceWorld and up to 19.8% on ALFWorld. Our work demonstrates that multi-turn sparse-reward settings require fundamentally different entropy control than traditional RL, with broad implications for LLM agent training.

EPO: Optimización de Políticas Regularizada por Entropía para Agentes de Modelos de Lenguaje de Gran Escala Aprendizaje por Refuerzo

EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

Resumen

Support