대규모 언어 모델을 위한 클리핑 없는 정책 최적화
Clipping-Free Policy Optimization for Large Language Models
January 30, 2026
저자: Ömer Veysel Çağatan, Barış Akgün, Gözde Gül Şahin, Xuandong Zhao
cs.AI
초록
강화 학습은 대규모 언어 모델의 사후 학습에 핵심적인 역할을 담당하게 되었으나, 주류 알고리즘들은 규모 확장 시 최적화 문제(기울기 소실 영역, 보상 해킹, 학습 불안정성 등)를 유발하는 클리핑 기법에 의존해왔습니다. 본 연구에서는 휴리스틱 클리핑을 총변이 거리 제약에서 유도된 볼록 이차 패널티로 대체하는 클리핑 프리 정책 최적화를 제안합니다. 이를 통해 하드 경계 없이도 안정적인 정책 업데이트를 보장하며 모든 구간에서 미분 가능한 목적 함수를 얻었습니다. 우리는 CFPO를 추론 및 정렬 설정 전반에 걸쳐 평가했습니다. 추론 과제에서는 하류 벤치마크에서 클리핑 기반 방법과 성능을 맞추면서도 안정적인 학습 영역을 확장했습니다. 정렬 과제에서는 지시 따르기 성능에서 경쟁력 있는 결과를 유지하면서도 장황성 악용을 완화하고 능력 저하를 줄였습니다. CFPO는 단 한 줄의 코드 변경만으로 추가 하이퍼파라미터 없이 적용 가능합니다. 우리의 결과는 CFPO가 LLM 사후 학습을 위한 클리핑 기반 방법의 유력한 대체제가 될 수 있음을 시사합니다.
English
Reinforcement learning has become central to post-training large language models, yet dominant algorithms rely on clipping mechanisms that introduce optimization issues at scale, including zero-gradient regions, reward hacking, and training instability. We propose Clipping-Free Policy Optimization (CFPO), which replaces heuristic clipping with a convex quadratic penalty derived from Total Variation divergence constraints, yielding an everywhere-differentiable objective that enforces stable policy updates without hard boundaries. We evaluate CFPO across both reasoning and alignment settings. In reasoning, CFPO matches clipping-based methods on downstream benchmarks while extending the stable training regime. In alignment, CFPO mitigates verbosity exploitation and reduces capability degradation, while achieving competitive instruction-following performance. CFPO requires only a one-line code change and no additional hyperparameters. Our results suggest that CFPO is a promising drop-in alternative to clipping-based methods for LLM post-training.