Repenser la région de confiance dans l'apprentissage par renforcement des LLM
Rethinking the Trust Region in LLM Reinforcement Learning
February 4, 2026
papers.authors: Penghui Qi, Xiangxin Zhou, Zichen Liu, Tianyu Pang, Chao Du, Min Lin, Wee Sun Lee
cs.AI
papers.abstract
L'apprentissage par renforcement (RL) est devenu un pilier pour le réglage fin des grands modèles de langage (LLM), l'Optimisation Proximale des Politiques (PPO) servant d'algorithme standard de facto. Malgré son omniprésence, nous soutenons que le mécanisme central de clipping du ratio dans PPO est structurellement inadapté aux grands vocabulaires inhérents aux LLM. PPO contraint les mises à jour de la politique basées sur le ratio de probabilité des tokens échantillonnés, qui sert d'estimation Monte Carlo à un échantillon, bruitée, de la vraie divergence de politique. Cela crée une dynamique d'apprentissage sous-optimale : les mises à jour pour les tokens de faible probabilité sont agressivement sur-pénalisées, tandis que les décalages potentiellement catastrophiques pour les tokens de haute probabilité sont sous-contraints, conduisant à une inefficacité et une instabilité de l'entraînement. Pour résoudre ce problème, nous proposons l'Optimisation Proximale des Politiques par Divergence (DPPO), qui substitue le clipping heuristique par une contrainte plus principielle basée sur une estimation directe de la divergence de politique (par exemple, la Variation Totale ou KL). Pour éviter une empreinte mémoire excessive, nous introduisons les approximations Binaire et Top-K efficaces pour capturer la divergence essentielle avec une surcharge négligeable. Des évaluations empiriques approfondies démontrent que DPPO atteint une stabilité et une efficacité d'entraînement supérieures aux méthodes existantes, offrant une base plus robuste pour le réglage fin des LLM par RL.
English
Reinforcement learning (RL) has become a cornerstone for fine-tuning Large Language Models (LLMs), with Proximal Policy Optimization (PPO) serving as the de facto standard algorithm. Despite its ubiquity, we argue that the core ratio clipping mechanism in PPO is structurally ill-suited for the large vocabularies inherent to LLMs. PPO constrains policy updates based on the probability ratio of sampled tokens, which serves as a noisy single-sample Monte Carlo estimate of the true policy divergence. This creates a sub-optimal learning dynamic: updates to low-probability tokens are aggressively over-penalized, while potentially catastrophic shifts in high-probability tokens are under-constrained, leading to training inefficiency and instability. To address this, we propose Divergence Proximal Policy Optimization (DPPO), which substitutes heuristic clipping with a more principled constraint based on a direct estimate of policy divergence (e.g., Total Variation or KL). To avoid huge memory footprint, we introduce the efficient Binary and Top-K approximations to capture the essential divergence with negligible overhead. Extensive empirical evaluations demonstrate that DPPO achieves superior training stability and efficiency compared to existing methods, offering a more robust foundation for RL-based LLM fine-tuning.