ChatPaper.aiChatPaper

Optimización de Políticas sin Recorte para Modelos de Lenguaje a Gran Escala

Clipping-Free Policy Optimization for Large Language Models

January 30, 2026
Autores: Ömer Veysel Çağatan, Barış Akgün, Gözde Gül Şahin, Xuandong Zhao
cs.AI

Resumen

El aprendizaje por refuerzo se ha vuelto fundamental para el post-entrenamiento de modelos de lenguaje grandes, sin embargo, los algoritmos dominantes dependen de mecanismos de recorte que introducen problemas de optimización a gran escala, incluyendo regiones de gradiente cero, manipulación de recompensas e inestabilidad en el entrenamiento. Proponemos la Optimización de Políticas Libre de Recorte (CFPO), que reemplaza el recorte heurístico con una penalización cuadrática convexa derivada de restricciones de divergencia de Variación Total, produciendo un objetivo diferenciable en todas partes que aplica actualizaciones de políticas estables sin límites rígidos. Evaluamos CFPO en contextos de razonamiento y alineación. En razonamiento, CFPO iguala a los métodos basados en recorte en benchmarks posteriores mientras extiende el régimen de entrenamiento estable. En alineación, CFPO mitiga la explotación de verbosidad y reduce la degradación de capacidades, logrando al mismo tiempo un rendimiento competitivo en seguimiento de instrucciones. CFPO requiere solo un cambio de una línea de código y ningún hiperparámetro adicional. Nuestros resultados sugieren que CFPO es una alternativa prometedora de sustitución directa a los métodos basados en recorte para el post-entrenamiento de LLMs.
English
Reinforcement learning has become central to post-training large language models, yet dominant algorithms rely on clipping mechanisms that introduce optimization issues at scale, including zero-gradient regions, reward hacking, and training instability. We propose Clipping-Free Policy Optimization (CFPO), which replaces heuristic clipping with a convex quadratic penalty derived from Total Variation divergence constraints, yielding an everywhere-differentiable objective that enforces stable policy updates without hard boundaries. We evaluate CFPO across both reasoning and alignment settings. In reasoning, CFPO matches clipping-based methods on downstream benchmarks while extending the stable training regime. In alignment, CFPO mitigates verbosity exploitation and reduces capability degradation, while achieving competitive instruction-following performance. CFPO requires only a one-line code change and no additional hyperparameters. Our results suggest that CFPO is a promising drop-in alternative to clipping-based methods for LLM post-training.
PDF22February 7, 2026