ChatPaper.aiChatPaper

대규모 언어 모델 강화 학습에서 신뢰 영역 재고

Rethinking the Trust Region in LLM Reinforcement Learning

February 4, 2026
저자: Penghui Qi, Xiangxin Zhou, Zichen Liu, Tianyu Pang, Chao Du, Min Lin, Wee Sun Lee
cs.AI

초록

강화 학습(RL)은 대규모 언어 모델(LLM)의 미세 조정을 위한 핵심 기술로 자리 잡았으며, Proximal Policy Optimization(PPO)이 사실상 표준 알고리즘으로 사용되고 있습니다. 그러나 이러한 보편성에도 불구하고, PPO의 핵심 비율 클리핑 메커니즘은 LLM에 내재된 큰 어휘 집합 구조에 부적합하다고 주장합니다. PPO는 샘플링된 토큰의 확률 비율을 기반으로 정책 업데이트를 제한하는데, 이는 실제 정책 발산의 잡음이 포함된 단일 샘플 몬테카를로 추정치 역할을 합니다. 이는 최적이 아닌 학습 역학을 생성합니다: 낮은 확률 토큰에 대한 업데이트는 과도하게 제약되는 반면, 높은 확률 토큰에서 발생 가능한 치명적 변화는 제약이 충분하지 않아 학습 효율성과 안정성을 저해합니다. 이를 해결하기 위해 우리는 휴리스틱 클리핑을 정책 발산(예: 총 변동 또는 KL 발산)의 직접 추정치를 기반으로 한 보다 원칙적인 제약으로 대체하는 Divergence Proximal Policy Optimization(DPPO)을 제안합니다. 큰 메모리 사용량을 방지하기 위해, 우리는 최소한의 오버헤드로 핵심 발산을 포착하는 효율적인 Binary 및 Top-K 근사법을 도입합니다. 광범위한 실증 평가를 통해 DPPO가 기존 방법 대비 향상된 학습 안정성과 효율성을 달성하여 RL 기반 LLM 미세 조정을 위한 더욱 견고한 기반을 제공함을 입증합니다.
English
Reinforcement learning (RL) has become a cornerstone for fine-tuning Large Language Models (LLMs), with Proximal Policy Optimization (PPO) serving as the de facto standard algorithm. Despite its ubiquity, we argue that the core ratio clipping mechanism in PPO is structurally ill-suited for the large vocabularies inherent to LLMs. PPO constrains policy updates based on the probability ratio of sampled tokens, which serves as a noisy single-sample Monte Carlo estimate of the true policy divergence. This creates a sub-optimal learning dynamic: updates to low-probability tokens are aggressively over-penalized, while potentially catastrophic shifts in high-probability tokens are under-constrained, leading to training inefficiency and instability. To address this, we propose Divergence Proximal Policy Optimization (DPPO), which substitutes heuristic clipping with a more principled constraint based on a direct estimate of policy divergence (e.g., Total Variation or KL). To avoid huge memory footprint, we introduce the efficient Binary and Top-K approximations to capture the essential divergence with negligible overhead. Extensive empirical evaluations demonstrate that DPPO achieves superior training stability and efficiency compared to existing methods, offering a more robust foundation for RL-based LLM fine-tuning.
PDF251February 6, 2026