EPO: Ottimizzazione delle Politiche con Regolarizzazione dell'Entropia per Agenti LLM Apprendimento per Rinforzo
EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning
September 26, 2025
Autori: Xu Wujiang, Wentian Zhao, Zhenting Wang, Li Yu-Jhe, Jin Can, Jin Mingyu, Mei Kai, Wan Kun, Metaxas Dimitris
cs.AI
Abstract
L'addestramento di agenti LLM in ambienti multi-turn con ricompense sparse, dove il completamento di un singolo compito richiede oltre 30 interazioni all'interno di un episodio, rappresenta una sfida fondamentale per l'apprendimento per rinforzo. Identifichiamo una modalità di fallimento critica unica in questo contesto: il fallimento a cascata esplorazione-sfruttamento. Questa cascata inizia con una convergenza prematura della politica nelle fasi iniziali, dove il feedback scarso induce gli agenti ad adottare strategie imperfette e a bassa entropia. Successivamente, gli agenti entrano in una fase di collasso della politica, in cui la regolarizzazione convenzionale dell'entropia diventa controproducente, promuovendo un'esplorazione caotica che destabilizza l'addestramento. Proponiamo l'Entropy-regularized Policy Optimization (EPO), un framework generale che interrompe questo ciclo di fallimento attraverso tre meccanismi sinergici: (1) l'adozione della regolarizzazione dell'entropia in contesti multi-turn per migliorare l'esplorazione, (2) un regolarizzatore di livellamento dell'entropia che vincola l'entropia della politica entro medie storiche per prevenire fluttuazioni brusche, e (3) una ponderazione adattiva basata su fasi che bilancia esplorazione e sfruttamento durante l'addestramento. La nostra analisi dimostra che EPO garantisce una riduzione monotona della varianza dell'entropia mantenendo la convergenza. EPO raggiunge un miglioramento delle prestazioni fino al 152% su ScienceWorld e fino al 19,8% su ALFWorld. Il nostro lavoro dimostra che i contesti multi-turn con ricompense sparse richiedono un controllo dell'entropia fondamentalmente diverso rispetto al RL tradizionale, con implicazioni ampie per l'addestramento degli agenti LLM.
English
Training LLM agents in multi-turn environments with sparse rewards, where
completing a single task requires 30+ turns of interaction within an episode,
presents a fundamental challenge for reinforcement learning. We identify a
critical failure mode unique to this setting: the exploration-exploitation
cascade failure. This cascade begins with early-stage policy premature
convergence, where sparse feedback causes agents to commit to flawed,
low-entropy strategies. Subsequently, agents enter late-stage policy collapse,
where conventional entropy regularization becomes counterproductive, promoting
chaotic exploration that destabilizes training. We propose Entropy-regularized
Policy Optimization (EPO), a general framework that breaks this failure cycle
through three synergistic mechanisms: (1) adopting entropy regularization in
multi-turn settings to enhance exploration, (2) an entropy smoothing
regularizer that bounds policy entropy within historical averages to prevent
abrupt fluctuations, and (3) adaptive phase-based weighting that balances
exploration and exploitation across training. Our analysis justifies that EPO
guarantees monotonically decreasing entropy variance while maintaining
convergence. EPO achieves up to 152% performance improvement on ScienceWorld
and up to 19.8% on ALFWorld. Our work demonstrates that multi-turn
sparse-reward settings require fundamentally different entropy control than
traditional RL, with broad implications for LLM agent training.