Knippen-vrij beleidsoptimalisatie voor grote taalmodel

Samenvatting

Versterkend leren is centraal komen te staan bij het na-trainen van grote taalmodellen, maar dominante algoritmen zijn afhankelijk van clipping-mechanismen die optimalisatieproblemen op grote schaal introduceren, zoals gebieden met nulgradiënten, reward hacking en traininstabiliteit. Wij stellen Clipping-Free Policy Optimization (CFPO) voor, waarbij heuristische clipping wordt vervangen door een convexe kwadratische strafterm afgeleid van Total Variatie-divergentiebeperkingen. Dit resulteert in een overal differentieerbare doelstellingsfunctie die stabiele beleidsupdates afdwingt zonder harde grenzen. We evalueren CFPO in zowel redeneer- als aligneringscontexten. Bij redeneren evenaart CFPO clipping-gebaseerde methoden op downstream benchmarks, terwijl het het stabiele trainingsregime verlengt. Bij alignment vermindert CFPO exploitatie van spraakzaamheid en beperkt het capaciteitsdegradatie, waarbij het competitieve prestaties voor instructie-opvolging behaalt. CFPO vereist slechts een wijziging van één coderegel en geen extra hyperparameters. Onze resultaten suggereren dat CFPO een veelbelovende, directe vervanging is voor clipping-gebaseerde methoden bij het na-trainen van grote taalmodellen.

English

Reinforcement learning has become central to post-training large language models, yet dominant algorithms rely on clipping mechanisms that introduce optimization issues at scale, including zero-gradient regions, reward hacking, and training instability. We propose Clipping-Free Policy Optimization (CFPO), which replaces heuristic clipping with a convex quadratic penalty derived from Total Variation divergence constraints, yielding an everywhere-differentiable objective that enforces stable policy updates without hard boundaries. We evaluate CFPO across both reasoning and alignment settings. In reasoning, CFPO matches clipping-based methods on downstream benchmarks while extending the stable training regime. In alignment, CFPO mitigates verbosity exploitation and reduces capability degradation, while achieving competitive instruction-following performance. CFPO requires only a one-line code change and no additional hyperparameters. Our results suggest that CFPO is a promising drop-in alternative to clipping-based methods for LLM post-training.

Knippen-vrij beleidsoptimalisatie voor grote taalmodel

Clipping-Free Policy Optimization for Large Language Models

Samenvatting

Support