ChatPaper.aiChatPaper

Optimisation de Politique Sans Écrêtage pour les Modèles de Langage à Grande Échelle

Clipping-Free Policy Optimization for Large Language Models

January 30, 2026
papers.authors: Ömer Veysel Çağatan, Barış Akgün, Gözde Gül Şahin, Xuandong Zhao
cs.AI

papers.abstract

L'apprentissage par renforcement est devenu central pour le post-entraînement des grands modèles de langage, mais les algorithmes dominants reposent sur des mécanismes de seuillage qui introduisent des problèmes d'optimisation à grande échelle, incluant des régions à gradient nul, du détournement de récompense et une instabilité de l'entraînement. Nous proposons l'Optimisation de Politique Sans Seuillage (CFPO), qui remplace le seuillage heuristique par une pénalité quadratique convexe dérivée de contraintes de divergence de la Variation Totale, produisant un objectif différentiable partout qui impose des mises à jour de politique stables sans limites strictes. Nous évaluons CFPO dans des contextes de raisonnement et d'alignement. En raisonnement, CFPO égale les méthodes basées sur le seuillage sur les benchmarks en aval tout en étendant le régime d'entraînement stable. En alignement, CFPO atténue l'exploitation de la verbosité et réduit la dégradation des capacités, tout en atteignant des performances compétitives de suivi d'instructions. CFPO ne nécessite qu'un changement d'une ligne de code et aucun hyperparamètre supplémentaire. Nos résultats suggèrent que CFPO est une alternative prometteuse, prête à l'emploi, aux méthodes basées sur le seuillage pour le post-entraînement des LLM.
English
Reinforcement learning has become central to post-training large language models, yet dominant algorithms rely on clipping mechanisms that introduce optimization issues at scale, including zero-gradient regions, reward hacking, and training instability. We propose Clipping-Free Policy Optimization (CFPO), which replaces heuristic clipping with a convex quadratic penalty derived from Total Variation divergence constraints, yielding an everywhere-differentiable objective that enforces stable policy updates without hard boundaries. We evaluate CFPO across both reasoning and alignment settings. In reasoning, CFPO matches clipping-based methods on downstream benchmarks while extending the stable training regime. In alignment, CFPO mitigates verbosity exploitation and reduces capability degradation, while achieving competitive instruction-following performance. CFPO requires only a one-line code change and no additional hyperparameters. Our results suggest that CFPO is a promising drop-in alternative to clipping-based methods for LLM post-training.
PDF22February 7, 2026