Переосмысление доверительной области в обучении с подкреплением для больших языковых моделей
Rethinking the Trust Region in LLM Reinforcement Learning
February 4, 2026
Авторы: Penghui Qi, Xiangxin Zhou, Zichen Liu, Tianyu Pang, Chao Du, Min Lin, Wee Sun Lee
cs.AI
Аннотация
Подкрепляющее обучение (Reinforcement Learning, RL) стало краеугольным камнем для тонкой настройки больших языковых моделей (Large Language Models, LLMs), а алгоритм Proximal Policy Optimization (PPO) де-факто является стандартом. Несмотря на его повсеместное распространение, мы утверждаем, что базовый механизм ограничения вероятностного отношения (ratio clipping) в PPO структурно плохо подходит для больших словарей, присущих LLM. PPO ограничивает обновления политики на основе отношения вероятностей выбранных токенов, которое служит зашумлённой односэмпловой оценкой Монте-Карло истинной дивергенции политик. Это создаёт неоптимальную динамику обучения: обновления для токенов с низкой вероятностью агрессивно и чрезмерно штрафуются, в то время как потенциально катастрофические сдвиги для высоковероятностных токенов недостаточно ограничены, что приводит к неэффективности и нестабильности обучения. Для решения этой проблемы мы предлагаем Divergence Proximal Policy Optimization (DPPO), который заменяет эвристическое ограничение на более принципиальное, основанное на прямой оценке дивергенции политик (например, полной вариации или дивергенции Кульбака-Лейблера). Чтобы избежать большого объёма используемой памяти, мы вводим эффективные бинарную и Top-K аппроксимации для захвата существенной дивергенции с пренебрежимо малыми накладными расходами. Многочисленные эмпирические оценки демонстрируют, что DPPO обеспечивает превосходную стабильность и эффективность обучения по сравнению с существующими методами, предлагая более надёжную основу для RL-тонкой настройки LLM.
English
Reinforcement learning (RL) has become a cornerstone for fine-tuning Large Language Models (LLMs), with Proximal Policy Optimization (PPO) serving as the de facto standard algorithm. Despite its ubiquity, we argue that the core ratio clipping mechanism in PPO is structurally ill-suited for the large vocabularies inherent to LLMs. PPO constrains policy updates based on the probability ratio of sampled tokens, which serves as a noisy single-sample Monte Carlo estimate of the true policy divergence. This creates a sub-optimal learning dynamic: updates to low-probability tokens are aggressively over-penalized, while potentially catastrophic shifts in high-probability tokens are under-constrained, leading to training inefficiency and instability. To address this, we propose Divergence Proximal Policy Optimization (DPPO), which substitutes heuristic clipping with a more principled constraint based on a direct estimate of policy divergence (e.g., Total Variation or KL). To avoid huge memory footprint, we introduce the efficient Binary and Top-K approximations to capture the essential divergence with negligible overhead. Extensive empirical evaluations demonstrate that DPPO achieves superior training stability and efficiency compared to existing methods, offering a more robust foundation for RL-based LLM fine-tuning.