Ottimizzazione delle Politiche senza Clipping per Modelli Linguistici di Grandi Dimensioni

Abstract

L'apprendimento per rinforzo è diventato centrale per il post-addestramento dei grandi modelli linguistici, tuttavia gli algoritmi dominanti si basano su meccanismi di clipping che introducono problemi di ottimizzazione su larga scala, incluse regioni a gradiente nullo, reward hacking e instabilità dell'addestramento. Proponiamo l'Ottimizzazione della Politica Senza Clipping (CFPO), che sostituisce il clipping euristico con una penalità quadratica convessa derivata da vincoli di divergenza della Variazione Totale, producendo un obiettivo differenziabile ovvero che applica aggiornamenti stabili della politica senza limiti rigidi. Valutiamo CFPO sia in contesti di ragionamento che di allineamento. Nel ragionamento, CFPO eguaglia i metodi basati su clipping nei benchmark downstream estendendo al contempo il regime di addestramento stabile. Nell'allineamento, CFPO mitiga lo sfruttamento della verbosità e riduce il degrado delle capacità, raggiungendo prestazioni competitive nell'aderenza alle istruzioni. CFPO richiede solo una modifica di una riga di codice e nessun iperparametro aggiuntivo. I nostri risultati suggeriscono che CFPO è una promettente alternativa plug-and-play ai metodi basati su clipping per il post-addestramento degli LLM.

English

Reinforcement learning has become central to post-training large language models, yet dominant algorithms rely on clipping mechanisms that introduce optimization issues at scale, including zero-gradient regions, reward hacking, and training instability. We propose Clipping-Free Policy Optimization (CFPO), which replaces heuristic clipping with a convex quadratic penalty derived from Total Variation divergence constraints, yielding an everywhere-differentiable objective that enforces stable policy updates without hard boundaries. We evaluate CFPO across both reasoning and alignment settings. In reasoning, CFPO matches clipping-based methods on downstream benchmarks while extending the stable training regime. In alignment, CFPO mitigates verbosity exploitation and reduces capability degradation, while achieving competitive instruction-following performance. CFPO requires only a one-line code change and no additional hyperparameters. Our results suggest that CFPO is a promising drop-in alternative to clipping-based methods for LLM post-training.

Ottimizzazione delle Politiche senza Clipping per Modelli Linguistici di Grandi Dimensioni

Clipping-Free Policy Optimization for Large Language Models

Abstract

Support