Clipping-freie Politikoptimierung für große Sprachmodelle

papers.abstract

Reinforcement Learning ist zentral für das Post-Training großer Sprachmodelle geworden, doch dominante Algorithmen stützen sich auf Clipping-Mechanismen, die in großem Maßstab Optimierungsprobleme verursachen, darunter Null-Gradienten-Bereiche, Reward Hacking und Trainingsinstabilität. Wir schlagen Clipping-Free Policy Optimization (CFPO) vor, das heuristisches Clipping durch eine konvexe quadratische Straffunktion ersetzt, die aus Total-Variation-Divergenz-Beschränkungen abgeleitet wird. Dies ergibt ein überall differenzierbares Ziel, das stabile Policy-Updates ohne harte Grenzen erzwingt. Wir evaluieren CFPO sowohl in Reasoning- als auch in Alignment-Szenarien. Beim Reasoning erreicht CFPO vergleichbare Ergebnisse wie Clipping-basierte Methoden in Downstream-Benchmarks und erweitert dabei das stabile Trainingsregime. Beim Alignment mildert CFPO die Ausnutzung von Weitschweifigkeit und verringert Fähigkeitsverluste, bei gleichzeitig wettbewerbsfähiger Instruction-Following-Leistung. CFPO erfordert nur eine einzeilige Code-Änderung und keine zusätzlichen Hyperparameter. Unsere Ergebnisse deuten darauf hin, dass CFPO eine vielversprechende Drop-in-Alternative zu Clipping-basierten Methoden für das Post-Training von LLMs ist.

English

Reinforcement learning has become central to post-training large language models, yet dominant algorithms rely on clipping mechanisms that introduce optimization issues at scale, including zero-gradient regions, reward hacking, and training instability. We propose Clipping-Free Policy Optimization (CFPO), which replaces heuristic clipping with a convex quadratic penalty derived from Total Variation divergence constraints, yielding an everywhere-differentiable objective that enforces stable policy updates without hard boundaries. We evaluate CFPO across both reasoning and alignment settings. In reasoning, CFPO matches clipping-based methods on downstream benchmarks while extending the stable training regime. In alignment, CFPO mitigates verbosity exploitation and reduces capability degradation, while achieving competitive instruction-following performance. CFPO requires only a one-line code change and no additional hyperparameters. Our results suggest that CFPO is a promising drop-in alternative to clipping-based methods for LLM post-training.

Clipping-freie Politikoptimierung für große Sprachmodelle

Clipping-Free Policy Optimization for Large Language Models

papers.abstract

Support