EPO: Entropie-geregulariseerde Beleidsoptimalisatie voor LLM-agenten Versterkend Leren
EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning
September 26, 2025
Auteurs: Xu Wujiang, Wentian Zhao, Zhenting Wang, Li Yu-Jhe, Jin Can, Jin Mingyu, Mei Kai, Wan Kun, Metaxas Dimitris
cs.AI
Samenvatting
Het trainen van LLM-agents in omgevingen met meerdere beurten en schaarse beloningen, waarbij het voltooien van een enkele taak 30+ interactiebeurten binnen een episode vereist, vormt een fundamentele uitdaging voor reinforcement learning. We identificeren een kritieke foutmodus die uniek is voor deze setting: de exploratie-exploitatie cascade-fout. Deze cascade begint met vroegtijdige convergentie van het beleid in de beginfase, waarbij schaarse feedback ervoor zorgt dat agents zich vastleggen op gebrekkige, laag-entropie strategieën. Vervolgens belanden agents in een fase van beleidsinstorting in de latere fase, waarbij conventionele entropie-regularisatie contraproductief wordt en chaotische exploratie bevordert die de training destabiliseert. We stellen Entropy-regularized Policy Optimization (EPO) voor, een algemeen raamwerk dat deze foutcyclus doorbreekt via drie synergetische mechanismen: (1) het toepassen van entropie-regularisatie in omgevingen met meerdere beurten om exploratie te verbeteren, (2) een entropie-gladmakende regularisator die de beleidsentropie begrenst binnen historische gemiddelden om abrupte fluctuaties te voorkomen, en (3) adaptieve fasegebaseerde weging die exploratie en exploitatie in balans brengt tijdens de training. Onze analyse rechtvaardigt dat EPO een monotoon afnemende entropie-variantie garandeert terwijl convergentie behouden blijft. EPO behaalt een prestatieverbetering van tot 152% op ScienceWorld en tot 19,8% op ALFWorld. Ons werk toont aan dat omgevingen met meerdere beurten en schaarse beloningen fundamenteel andere entropiecontrole vereisen dan traditioneel RL, met brede implicaties voor de training van LLM-agents.
English
Training LLM agents in multi-turn environments with sparse rewards, where
completing a single task requires 30+ turns of interaction within an episode,
presents a fundamental challenge for reinforcement learning. We identify a
critical failure mode unique to this setting: the exploration-exploitation
cascade failure. This cascade begins with early-stage policy premature
convergence, where sparse feedback causes agents to commit to flawed,
low-entropy strategies. Subsequently, agents enter late-stage policy collapse,
where conventional entropy regularization becomes counterproductive, promoting
chaotic exploration that destabilizes training. We propose Entropy-regularized
Policy Optimization (EPO), a general framework that breaks this failure cycle
through three synergistic mechanisms: (1) adopting entropy regularization in
multi-turn settings to enhance exploration, (2) an entropy smoothing
regularizer that bounds policy entropy within historical averages to prevent
abrupt fluctuations, and (3) adaptive phase-based weighting that balances
exploration and exploitation across training. Our analysis justifies that EPO
guarantees monotonically decreasing entropy variance while maintaining
convergence. EPO achieves up to 152% performance improvement on ScienceWorld
and up to 19.8% on ALFWorld. Our work demonstrates that multi-turn
sparse-reward settings require fundamentally different entropy control than
traditional RL, with broad implications for LLM agent training.