ChatPaper.aiChatPaper

Replanteamiento de la Región de Confianza en el Aprendizaje por Refuerzo de LLM

Rethinking the Trust Region in LLM Reinforcement Learning

February 4, 2026
Autores: Penghui Qi, Xiangxin Zhou, Zichen Liu, Tianyu Pang, Chao Du, Min Lin, Wee Sun Lee
cs.AI

Resumen

El aprendizaje por refuerzo (RL) se ha convertido en un pilar fundamental para el ajuste fino de Modelos de Lenguaje Grandes (LLMs), siendo la Optimización de Políticas Proximales (PPO) el algoritmo estándar de facto. A pesar de su ubicuidad, argumentamos que el mecanismo central de recorte de ratio en PPO es estructuralmente inadecuado para los vocabularios extensos inherentes a los LLMs. PPO restringe las actualizaciones de la política en función de la proporción de probabilidad de los tokens muestreados, que sirve como una estimación ruidosa de Monte Carlo de una sola muestra de la verdadera divergencia de la política. Esto crea una dinámica de aprendizaje subóptima: las actualizaciones de tokens de baja probabilidad son penalizadas excesivamente de forma agresiva, mientras que los cambios potencialmente catastróficos en tokens de alta probabilidad están infra-restringidos, lo que conduce a ineficiencia e inestabilidad en el entrenamiento. Para abordar esto, proponemos la Optimización de Políticas Proximales por Divergencia (DPPO), que sustituye el recorte heurístico por una restricción más fundamentada basada en una estimación directa de la divergencia de políticas (por ejemplo, Variación Total o KL). Para evitar una enorme huella de memoria, introducimos las aproximaciones eficientes Binaria y Top-K para capturar la divergencia esencial con un overhead insignificante. Evaluaciones empíricas exhaustivas demuestran que DPPO logra una estabilidad y eficiencia de entrenamiento superiores en comparación con los métodos existentes, ofreciendo una base más robusta para el ajuste fino de LLMs basado en RL.
English
Reinforcement learning (RL) has become a cornerstone for fine-tuning Large Language Models (LLMs), with Proximal Policy Optimization (PPO) serving as the de facto standard algorithm. Despite its ubiquity, we argue that the core ratio clipping mechanism in PPO is structurally ill-suited for the large vocabularies inherent to LLMs. PPO constrains policy updates based on the probability ratio of sampled tokens, which serves as a noisy single-sample Monte Carlo estimate of the true policy divergence. This creates a sub-optimal learning dynamic: updates to low-probability tokens are aggressively over-penalized, while potentially catastrophic shifts in high-probability tokens are under-constrained, leading to training inefficiency and instability. To address this, we propose Divergence Proximal Policy Optimization (DPPO), which substitutes heuristic clipping with a more principled constraint based on a direct estimate of policy divergence (e.g., Total Variation or KL). To avoid huge memory footprint, we introduce the efficient Binary and Top-K approximations to capture the essential divergence with negligible overhead. Extensive empirical evaluations demonstrate that DPPO achieves superior training stability and efficiency compared to existing methods, offering a more robust foundation for RL-based LLM fine-tuning.
PDF251February 6, 2026