Освойте основы, затем доверьтесь победам: самоимитация с прогрессивным исследованием для агентного обучения с подкреплением
Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning
September 26, 2025
Авторы: Yulei Qin, Xiaoyu Tan, Zhengbao He, Gang Li, Haojia Lin, Zongyi Li, Zihan Xu, Yuchen Shi, Siqi Cai, Renting Rui, Shaofei Cai, Yuzheng Cai, Xuan Zhang, Sheng Ye, Ke Li, Xing Sun
cs.AI
Аннотация
Обучение с подкреплением (RL) является доминирующей парадигмой для повышения стратегических способностей использования инструментов крупными языковыми моделями (LLM) в задачах агентов с длительным горизонтом и редкими вознаграждениями. Однако оно сталкивается с фундаментальной проблемой компромисса между исследованием и эксплуатацией. Существующие исследования стимулируют исследование через призму энтропии политики, но такое механическое максимизирование энтропии склонно к нестабильности обучения RL из-за многократного смещения распределения. В данной статье мы сосредотачиваемся на прогрессивном балансе между исследованием и эксплуатацией под руководством собственного опыта агента, избегая как коллапса энтропии, так и неконтролируемой дивергенции. Мы предлагаем SPEAR, подход на основе учебного плана для самоимитационного обучения (SIL) при обучении агентных LLM. Он расширяет базовый фреймворк SIL, где буфер воспроизведения хранит самостоятельно сгенерированные перспективные траектории для внеполитического обновления, постепенно направляя эволюцию политики в пределах сбалансированного диапазона энтропии на различных этапах. В частности, наш подход включает учебный план для управления процессом исследования, используя внутренние вознаграждения для стимулирования исследования на уровне навыков и облегчая исследование на уровне действий через SIL. Вначале вспомогательное вознаграждение за вызов инструмента играет ключевую роль в накоплении навыков использования инструментов, обеспечивая широкое знакомство с незнакомыми распределениями обратной связи среды с тенденцией к увеличению энтропии. По мере прогресса обучения самоимитация усиливается для эксплуатации существующих успешных паттернов из воспроизведенного опыта, ускоряя итерацию решений без неограниченного роста энтропии. Для дальнейшей стабилизации обучения мы перекалибруем преимущества опыта в буфере воспроизведения, чтобы устранить потенциальный дрейф политики. Регуляризации, такие как обрезка токенов с высокой ковариацией между вероятностью и преимуществом, вводятся для контроля энтропии на уровне траекторий, чтобы сдерживать излишнюю уверенность.
English
Reinforcement learning (RL) is the dominant paradigm for sharpening strategic
tool use capabilities of LLMs on long-horizon, sparsely-rewarded agent tasks,
yet it faces a fundamental challenge of exploration-exploitation trade-off.
Existing studies stimulate exploration through the lens of policy entropy, but
such mechanical entropy maximization is prone to RL training instability due to
the multi-turn distribution shifting. In this paper, we target the progressive
exploration-exploitation balance under the guidance of the agent own
experiences without succumbing to either entropy collapsing or runaway
divergence. We propose SPEAR, a curriculum-based self-imitation learning (SIL)
recipe for training agentic LLMs. It extends the vanilla SIL framework, where a
replay buffer stores self-generated promising trajectories for off-policy
update, by gradually steering the policy evolution within a well-balanced range
of entropy across stages. Specifically, our approach incorporates a curriculum
to manage the exploration process, utilizing intrinsic rewards to foster
skill-level exploration and facilitating action-level exploration through SIL.
At first, the auxiliary tool call reward plays a critical role in the
accumulation of tool-use skills, enabling broad exposure to the unfamiliar
distributions of the environment feedback with an upward entropy trend. As
training progresses, self-imitation gets strengthened to exploit existing
successful patterns from replayed experiences for comparative action-level
exploration, accelerating solution iteration without unbounded entropy growth.
To further stabilize training, we recalibrate the advantages of experiences in
the replay buffer to address the potential policy drift. Reugularizations such
as the clipping of tokens with high covariance between probability and
advantage are introduced to the trajectory-level entropy control to curb
over-confidence.