ChatPaper.aiChatPaper

Ripensare la Regione di Fiducia nel Reinforcement Learning per LLM

Rethinking the Trust Region in LLM Reinforcement Learning

February 4, 2026
Autori: Penghui Qi, Xiangxin Zhou, Zichen Liu, Tianyu Pang, Chao Du, Min Lin, Wee Sun Lee
cs.AI

Abstract

L'apprendimento per rinforzo (RL) è diventato un pilastro per il fine-tuning dei Large Language Model (LLM), con la Proximal Policy Optimization (PPO) che funge da algoritmo standard de facto. Nonostante la sua ubiquità, sosteniamo che il meccanismo centrale del clipping del rapporto nella PPO sia strutturalmente inadatto per i vocabolari di grandi dimensioni propri degli LLM. La PPO vincola gli aggiornamenti della policy in base al rapporto di probabilità dei token campionati, che funge da rumorosa stima Monte Carlo a singolo campione della vera divergenza della policy. Ciò crea una dinamica di apprendimento subottimale: gli aggiornamenti per token a bassa probabilità sono penalizzati in modo eccessivo e aggressivo, mentre potenziali shift catastrofici per token ad alta probabilità sono sotto-vincolati, portando a inefficienza e instabilità durante l'addestramento. Per affrontare questo problema, proponiamo la Divergence Proximal Policy Optimization (DPPO), che sostituisce l'euristica del clipping con un vincolo più principiato basato su una stima diretta della divergenza della policy (ad esempio, la Variazione Totale o la KL). Per evitare un'enorme impronta di memoria, introduciamo le efficienti approssimazioni Binaria e Top-K per catturare la divergenza essenziale con un overhead trascurabile. Valutazioni empiriche estensive dimostrano che la DPPO raggiunge una stabilità e un'efficienza di addestramento superiori rispetto ai metodi esistenti, offrendo una base più solida per il fine-tuning degli LLM basato su RL.
English
Reinforcement learning (RL) has become a cornerstone for fine-tuning Large Language Models (LLMs), with Proximal Policy Optimization (PPO) serving as the de facto standard algorithm. Despite its ubiquity, we argue that the core ratio clipping mechanism in PPO is structurally ill-suited for the large vocabularies inherent to LLMs. PPO constrains policy updates based on the probability ratio of sampled tokens, which serves as a noisy single-sample Monte Carlo estimate of the true policy divergence. This creates a sub-optimal learning dynamic: updates to low-probability tokens are aggressively over-penalized, while potentially catastrophic shifts in high-probability tokens are under-constrained, leading to training inefficiency and instability. To address this, we propose Divergence Proximal Policy Optimization (DPPO), which substitutes heuristic clipping with a more principled constraint based on a direct estimate of policy divergence (e.g., Total Variation or KL). To avoid huge memory footprint, we introduce the efficient Binary and Top-K approximations to capture the essential divergence with negligible overhead. Extensive empirical evaluations demonstrate that DPPO achieves superior training stability and efficiency compared to existing methods, offering a more robust foundation for RL-based LLM fine-tuning.
PDF293February 8, 2026