ChatPaper.aiChatPaper

Стабилизация обучения с подкреплением с помощью LLM: Формулировка и практические аспекты

Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

December 1, 2025
Авторы: Chujie Zheng, Kai Dang, Bowen Yu, Mingze Li, Huiqiang Jiang, Junrong Lin, Yuqiong Liu, An Yang, Jingren Zhou, Junyang Lin
cs.AI

Аннотация

В данной статье предлагается новая формулировка обучения с подкреплением (RL) для больших языковых моделей, объясняющая, почему и при каких условиях истинное вознаграждение на уровне последовательности может быть оптимизировано с помощью суррогатной цели на уровне токенов в методах градиента политики, таких как REINFORCE. В частности, с помощью аппроксимации первого порядка мы показываем, что этот суррогат становится все более корректным только при минимизации как расхождения между обучением и выводом, так и устаревания политики. Это наблюдение дает принципиальное объяснение ключевой роли нескольких широко используемых методов стабилизации RL-обучения, включая коррекцию важности сэмплирования, отсечение и, в частности, Routing Replay для моделей смеси экспертов (MoE). В ходе масштабных экспериментов с MoE-моделью на 30 млрд параметров, суммарно занявших сотни тысяч GPU-часов, мы демонстрируем, что для обучения на политике базовый алгоритм градиента политики с коррекцией важности обеспечивает наивысшую стабильность обучения. При внедрении обновлений вне политики для ускорения сходимости сочетание отсечения и Routing Replay становится необходимым для снижения нестабильности, вызванной устареванием политики. Примечательно, что после стабилизации обучения пролонгированная оптимизация последовательно дает сопоставимую итоговую производительность независимо от инициализации с холодного старта. Мы надеемся, что представленные инсайты и разработанные методики стабильного RL-обучения будут способствовать будущим исследованиям.
English
This paper proposes a novel formulation for reinforcement learning (RL) with large language models, explaining why and under what conditions the true sequence-level reward can be optimized via a surrogate token-level objective in policy gradient methods such as REINFORCE. Specifically, through a first-order approximation, we show that this surrogate becomes increasingly valid only when both the training-inference discrepancy and policy staleness are minimized. This insight provides a principled explanation for the crucial role of several widely adopted techniques in stabilizing RL training, including importance sampling correction, clipping, and particularly Routing Replay for Mixture-of-Experts (MoE) models. Through extensive experiments with a 30B MoE model totaling hundreds of thousands of GPU hours, we show that for on-policy training, the basic policy gradient algorithm with importance sampling correction achieves the highest training stability. When off-policy updates are introduced to accelerate convergence, combining clipping and Routing Replay becomes essential to mitigate the instability caused by policy staleness. Notably, once training is stabilized, prolonged optimization consistently yields comparable final performance regardless of cold-start initialization. We hope that the shared insights and the developed recipes for stable RL training will facilitate future research.
PDF491December 3, 2025