EPO: Entropie-regulierte Politikoptimierung für LLM-Agenten Verstärkungslernen
EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning
September 26, 2025
papers.authors: Xu Wujiang, Wentian Zhao, Zhenting Wang, Li Yu-Jhe, Jin Can, Jin Mingyu, Mei Kai, Wan Kun, Metaxas Dimitris
cs.AI
papers.abstract
Das Training von LLM-Agenten in Umgebungen mit mehreren Interaktionsschritten und spärlichen Belohnungen, bei denen die Erfüllung einer einzelnen Aufgabe 30 oder mehr Interaktionen innerhalb einer Episode erfordert, stellt eine grundlegende Herausforderung für das Reinforcement Learning dar. Wir identifizieren einen kritischen Fehlermodus, der spezifisch für diese Konfiguration ist: den Exploration-Exploitation-Kaskadenfehler. Diese Kaskade beginnt mit einer vorzeitigen Konvergenz der Politik in der Anfangsphase, bei der spärliches Feedback dazu führt, dass Agenten sich auf fehlerhafte, niedrig-entropische Strategien festlegen. Anschließend geraten die Agenten in eine späte Phase des Politikzusammenbruchs, bei der herkömmliche Entropie-Regularisierung kontraproduktiv wird und chaotische Exploration fördert, die das Training destabilisiert. Wir schlagen Entropy-regularized Policy Optimization (EPO) vor, ein allgemeines Framework, das diesen Fehlerzyklus durch drei synergetische Mechanismen durchbricht: (1) die Einführung von Entropie-Regularisierung in Umgebungen mit mehreren Interaktionsschritten zur Verbesserung der Exploration, (2) einen Entropie-Glättungsregularisierer, der die Entropie der Politik innerhalb historischer Durchschnittswerte begrenzt, um abrupte Schwankungen zu verhindern, und (3) eine adaptive, phasenbasierte Gewichtung, die Exploration und Exploitation während des Trainings ausbalanciert. Unsere Analyse zeigt, dass EPO eine monoton abnehmende Entropie-Varianz garantiert, während die Konvergenz erhalten bleibt. EPO erzielt eine Leistungssteigerung von bis zu 152 % auf ScienceWorld und bis zu 19,8 % auf ALFWorld. Unsere Arbeit zeigt, dass Umgebungen mit mehreren Interaktionsschritten und spärlichen Belohnungen eine grundlegend andere Entropie-Kontrolle erfordern als traditionelles RL, mit weitreichenden Implikationen für das Training von LLM-Agenten.
English
Training LLM agents in multi-turn environments with sparse rewards, where
completing a single task requires 30+ turns of interaction within an episode,
presents a fundamental challenge for reinforcement learning. We identify a
critical failure mode unique to this setting: the exploration-exploitation
cascade failure. This cascade begins with early-stage policy premature
convergence, where sparse feedback causes agents to commit to flawed,
low-entropy strategies. Subsequently, agents enter late-stage policy collapse,
where conventional entropy regularization becomes counterproductive, promoting
chaotic exploration that destabilizes training. We propose Entropy-regularized
Policy Optimization (EPO), a general framework that breaks this failure cycle
through three synergistic mechanisms: (1) adopting entropy regularization in
multi-turn settings to enhance exploration, (2) an entropy smoothing
regularizer that bounds policy entropy within historical averages to prevent
abrupt fluctuations, and (3) adaptive phase-based weighting that balances
exploration and exploitation across training. Our analysis justifies that EPO
guarantees monotonically decreasing entropy variance while maintaining
convergence. EPO achieves up to 152% performance improvement on ScienceWorld
and up to 19.8% on ALFWorld. Our work demonstrates that multi-turn
sparse-reward settings require fundamentally different entropy control than
traditional RL, with broad implications for LLM agent training.