EPO : Optimisation de Politique Régularisée par l'Entropie pour Agents LLM Apprentissage par Renforcement
EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning
September 26, 2025
papers.authors: Xu Wujiang, Wentian Zhao, Zhenting Wang, Li Yu-Jhe, Jin Can, Jin Mingyu, Mei Kai, Wan Kun, Metaxas Dimitris
cs.AI
papers.abstract
L'entraînement d'agents LLM dans des environnements à tours multiples avec des récompenses éparses, où l'accomplissement d'une seule tâche nécessite plus de 30 interactions au sein d'un épisode, représente un défi fondamental pour l'apprentissage par renforcement. Nous identifions un mode d'échec critique spécifique à ce contexte : l'échec en cascade exploration-exploitation. Cette cascade commence par une convergence prématurée de la politique en phase initiale, où le retour d'information épars incite les agents à adopter des stratégies défectueuses et à faible entropie. Par la suite, les agents entrent dans une phase de collapse de la politique en phase tardive, où la régularisation conventionnelle de l'entropie devient contre-productive, favorisant une exploration chaotique qui déstabilise l'entraînement. Nous proposons l'Optimisation de Politique à Entropie Régularisée (EPO), un cadre général qui rompt ce cycle d'échec grâce à trois mécanismes synergiques : (1) l'adoption de la régularisation de l'entropie dans des contextes à tours multiples pour améliorer l'exploration, (2) un régulariseur de lissage de l'entropie qui limite l'entropie de la politique à des moyennes historiques pour prévenir les fluctuations abruptes, et (3) une pondération adaptative basée sur les phases qui équilibre exploration et exploitation tout au long de l'entraînement. Notre analyse justifie qu'EPO garantit une diminution monotone de la variance de l'entropie tout en maintenant la convergence. EPO permet une amélioration des performances allant jusqu'à 152 % sur ScienceWorld et jusqu'à 19,8 % sur ALFWorld. Notre travail démontre que les contextes à récompenses éparses et à tours multiples nécessitent un contrôle de l'entropie fondamentalement différent de celui de l'apprentissage par renforcement traditionnel, avec des implications larges pour l'entraînement des agents LLM.
English
Training LLM agents in multi-turn environments with sparse rewards, where
completing a single task requires 30+ turns of interaction within an episode,
presents a fundamental challenge for reinforcement learning. We identify a
critical failure mode unique to this setting: the exploration-exploitation
cascade failure. This cascade begins with early-stage policy premature
convergence, where sparse feedback causes agents to commit to flawed,
low-entropy strategies. Subsequently, agents enter late-stage policy collapse,
where conventional entropy regularization becomes counterproductive, promoting
chaotic exploration that destabilizes training. We propose Entropy-regularized
Policy Optimization (EPO), a general framework that breaks this failure cycle
through three synergistic mechanisms: (1) adopting entropy regularization in
multi-turn settings to enhance exploration, (2) an entropy smoothing
regularizer that bounds policy entropy within historical averages to prevent
abrupt fluctuations, and (3) adaptive phase-based weighting that balances
exploration and exploitation across training. Our analysis justifies that EPO
guarantees monotonically decreasing entropy variance while maintaining
convergence. EPO achieves up to 152% performance improvement on ScienceWorld
and up to 19.8% on ALFWorld. Our work demonstrates that multi-turn
sparse-reward settings require fundamentally different entropy control than
traditional RL, with broad implications for LLM agent training.