EPO: Оптимизация политики с регуляризацией энтропии для агентов на основе больших языковых моделей Обучение с подкреплением
EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning
September 26, 2025
Авторы: Xu Wujiang, Wentian Zhao, Zhenting Wang, Li Yu-Jhe, Jin Can, Jin Mingyu, Mei Kai, Wan Kun, Metaxas Dimitris
cs.AI
Аннотация
Обучение агентов на основе больших языковых моделей (LLM) в средах с многошаговым взаимодействием и разреженными наградами, где выполнение одной задачи требует более 30 шагов взаимодействия в рамках одного эпизода, представляет собой фундаментальную проблему для обучения с подкреплением. Мы выявляем критический режим отказа, уникальный для таких условий: каскадный сбой в балансе исследования и эксплуатации. Этот каскад начинается с преждевременной сходимости политики на ранних этапах, когда разреженная обратная связь заставляет агентов фиксироваться на ошибочных стратегиях с низкой энтропией. Впоследствии агенты сталкиваются с коллапсом политики на поздних этапах, где традиционная регуляризация энтропии становится контрпродуктивной, способствуя хаотическому исследованию, которое дестабилизирует процесс обучения. Мы предлагаем Оптимизацию политики с регуляризацией энтропии (EPO), общую структуру, которая прерывает этот цикл сбоев за счет трех синергетических механизмов: (1) внедрение регуляризации энтропии в многошаговых средах для усиления исследования, (2) сглаживающий регулятор энтропии, который ограничивает энтропию политики в пределах исторических средних значений, предотвращая резкие колебания, и (3) адаптивное фазовое взвешивание, которое балансирует исследование и эксплуатацию на протяжении обучения. Наш анализ подтверждает, что EPO гарантирует монотонное уменьшение дисперсии энтропии при сохранении сходимости. EPO демонстрирует улучшение производительности до 152% на платформе ScienceWorld и до 19,8% на ALFWorld. Наша работа показывает, что многошаговые среды с разреженными наградами требуют принципиально иного подхода к управлению энтропией по сравнению с традиционным обучением с подкреплением, что имеет широкие последствия для обучения агентов на основе LLM.
English
Training LLM agents in multi-turn environments with sparse rewards, where
completing a single task requires 30+ turns of interaction within an episode,
presents a fundamental challenge for reinforcement learning. We identify a
critical failure mode unique to this setting: the exploration-exploitation
cascade failure. This cascade begins with early-stage policy premature
convergence, where sparse feedback causes agents to commit to flawed,
low-entropy strategies. Subsequently, agents enter late-stage policy collapse,
where conventional entropy regularization becomes counterproductive, promoting
chaotic exploration that destabilizes training. We propose Entropy-regularized
Policy Optimization (EPO), a general framework that breaks this failure cycle
through three synergistic mechanisms: (1) adopting entropy regularization in
multi-turn settings to enhance exploration, (2) an entropy smoothing
regularizer that bounds policy entropy within historical averages to prevent
abrupt fluctuations, and (3) adaptive phase-based weighting that balances
exploration and exploitation across training. Our analysis justifies that EPO
guarantees monotonically decreasing entropy variance while maintaining
convergence. EPO achieves up to 152% performance improvement on ScienceWorld
and up to 19.8% on ALFWorld. Our work demonstrates that multi-turn
sparse-reward settings require fundamentally different entropy control than
traditional RL, with broad implications for LLM agent training.