EPO : Optimisation de Politique Régularisée par l'Entropie pour Agents LLM Apprentissage par Renforcement

papers.abstract

L'entraînement d'agents LLM dans des environnements à tours multiples avec des récompenses éparses, où l'accomplissement d'une seule tâche nécessite plus de 30 interactions au sein d'un épisode, représente un défi fondamental pour l'apprentissage par renforcement. Nous identifions un mode d'échec critique spécifique à ce contexte : l'échec en cascade exploration-exploitation. Cette cascade commence par une convergence prématurée de la politique en phase initiale, où le retour d'information épars incite les agents à adopter des stratégies défectueuses et à faible entropie. Par la suite, les agents entrent dans une phase de collapse de la politique en phase tardive, où la régularisation conventionnelle de l'entropie devient contre-productive, favorisant une exploration chaotique qui déstabilise l'entraînement. Nous proposons l'Optimisation de Politique à Entropie Régularisée (EPO), un cadre général qui rompt ce cycle d'échec grâce à trois mécanismes synergiques : (1) l'adoption de la régularisation de l'entropie dans des contextes à tours multiples pour améliorer l'exploration, (2) un régulariseur de lissage de l'entropie qui limite l'entropie de la politique à des moyennes historiques pour prévenir les fluctuations abruptes, et (3) une pondération adaptative basée sur les phases qui équilibre exploration et exploitation tout au long de l'entraînement. Notre analyse justifie qu'EPO garantit une diminution monotone de la variance de l'entropie tout en maintenant la convergence. EPO permet une amélioration des performances allant jusqu'à 152 % sur ScienceWorld et jusqu'à 19,8 % sur ALFWorld. Notre travail démontre que les contextes à récompenses éparses et à tours multiples nécessitent un contrôle de l'entropie fondamentalement différent de celui de l'apprentissage par renforcement traditionnel, avec des implications larges pour l'entraînement des agents LLM.

English

Training LLM agents in multi-turn environments with sparse rewards, where completing a single task requires 30+ turns of interaction within an episode, presents a fundamental challenge for reinforcement learning. We identify a critical failure mode unique to this setting: the exploration-exploitation cascade failure. This cascade begins with early-stage policy premature convergence, where sparse feedback causes agents to commit to flawed, low-entropy strategies. Subsequently, agents enter late-stage policy collapse, where conventional entropy regularization becomes counterproductive, promoting chaotic exploration that destabilizes training. We propose Entropy-regularized Policy Optimization (EPO), a general framework that breaks this failure cycle through three synergistic mechanisms: (1) adopting entropy regularization in multi-turn settings to enhance exploration, (2) an entropy smoothing regularizer that bounds policy entropy within historical averages to prevent abrupt fluctuations, and (3) adaptive phase-based weighting that balances exploration and exploitation across training. Our analysis justifies that EPO guarantees monotonically decreasing entropy variance while maintaining convergence. EPO achieves up to 152% performance improvement on ScienceWorld and up to 19.8% on ALFWorld. Our work demonstrates that multi-turn sparse-reward settings require fundamentally different entropy control than traditional RL, with broad implications for LLM agent training.

EPO : Optimisation de Politique Régularisée par l'Entropie pour Agents LLM Apprentissage par Renforcement

EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

papers.abstract

Support