GFT: Dalla Imitazione alla Messa a Punto con Ricompense tramite Vantaggi di Gruppo Non Distorti e Rettifica Dinamica dei Coefficienti

Abstract

I grandi modelli linguistici vengono tipicamente addestrati in fase successiva mediante fine-tuning supervisionato (SFT) e apprendimento per rinforzo (RL), ma unificare efficacemente l'iniezione efficiente di conoscenze con una robusta generalizzazione rimane una sfida. In questo lavoro, forniamo un'analisi della dinamica di addestramento che mostra come l'SFT possa essere interpretato come un caso speciale di ottimizzazione del gradiente della politica con una ricompensa implicita estremamente sparsa e un instabile weighting a probabilità inversa, i quali insieme portano a una dipendenza da un singolo percorso, al collasso dell'entropia e all'esplosione del gradiente. Sulla base di questa diagnosi, proponiamo il Group Fine-Tuning (GFT), un framework unificato di post-addestramento che affronta queste limitazioni intrinseche attraverso due meccanismi: il Group Advantage Learning, che costruisce gruppi di risposta diversificati e deriva una supervisione contrastiva normalizzata per alleviare la sparsità della ricompensa, e la Dynamic Coefficient Rectification, che delimita in modo adattivo i pesi a probabilità inversa per stabilizzare l'ottimizzazione preservando al contempo l'iniezione efficiente di conoscenze. Gli esperimenti dimostrano che il GFT supera costantemente i metodi basati su SFT e produce politiche che si integrano più armoniosamente con il successivo addestramento RL.

English

Large language models are typically post-trained using supervised fine-tuning (SFT) and reinforcement learning (RL), yet effectively unifying efficient knowledge injection with robust generalization remains challenging. In this work, we provide a training-dynamics analysis showing that SFT can be interpreted as a special case of policy gradient optimization with an extremely sparse implicit reward and unstable inverse-probability weighting, which together lead to single-path dependency, entropy collapse, and gradient explosion. Motivated by this diagnosis, we propose Group Fine-Tuning (GFT), a unified post-training framework that addresses these intrinsic limitations through two mechanisms: Group Advantage Learning, which constructs diverse response groups and derives normalized contrastive supervision to alleviate reward sparsity, and Dynamic Coefficient Rectification, which adaptively bounds inverse-probability weights to stabilize optimization while preserving efficient knowledge injection. Experiments demonstrate that GFT consistently surpasses SFT-based methods and yields policies that integrate more smoothly with subsequent RL training.

GFT: Dalla Imitazione alla Messa a Punto con Ricompense tramite Vantaggi di Gruppo Non Distorti e Rettifica Dinamica dei Coefficienti

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Abstract

Support