GFT: Van Imitatie naar Beloningsafstemming met Onbevooroordeelde Groepsvoordelen en Dynamische Coëfficiëntenrectificatie

Samenvatting

Grote taalmodellen worden doorgaans nagevormd met behulp van gesuperviseerde fine-tuning (SFT) en reinforcement learning (RL), maar het effectief verenigen van efficiënte kennisinjectie met robuuste generalisatie blijft een uitdaging. In dit werk presenteren we een analyse van de trainingsdynamiek die aantoont dat SFT kan worden geïnterpreteerd als een speciaal geval van policy gradient-optimalisatie met een extreem schaarse impliciete beloning en instabiele inverse-kansweging, wat gezamenlijk leidt tot single-path afhankelijkheid, entropie-instorting en gradientexplosie. Gemotiveerd door deze diagnose stellen we Group Fine-Tuning (GFT) voor, een uniform na-trainingsraamwerk dat deze intrinsieke beperkingen aanpakt via twee mechanismen: Group Advantage Learning, dat diverse responsgroepen construeert en genormaliseerde contrastieve supervisie afleidt om beloningsschaarste te verlichten, en Dynamic Coefficient Rectification, dat inverse-kansgewichten adaptief begrenst om de optimalisatie te stabiliseren terwijl efficiënte kennisinjectie behouden blijft. Experimenten tonen aan dat GFT consistent superieur presteert aan SFT-gebaseerde methoden en beleid oplevert dat naadlozer integreert met daaropvolgende RL-training.

English

Large language models are typically post-trained using supervised fine-tuning (SFT) and reinforcement learning (RL), yet effectively unifying efficient knowledge injection with robust generalization remains challenging. In this work, we provide a training-dynamics analysis showing that SFT can be interpreted as a special case of policy gradient optimization with an extremely sparse implicit reward and unstable inverse-probability weighting, which together lead to single-path dependency, entropy collapse, and gradient explosion. Motivated by this diagnosis, we propose Group Fine-Tuning (GFT), a unified post-training framework that addresses these intrinsic limitations through two mechanisms: Group Advantage Learning, which constructs diverse response groups and derives normalized contrastive supervision to alleviate reward sparsity, and Dynamic Coefficient Rectification, which adaptively bounds inverse-probability weights to stabilize optimization while preserving efficient knowledge injection. Experiments demonstrate that GFT consistently surpasses SFT-based methods and yields policies that integrate more smoothly with subsequent RL training.

GFT: Van Imitatie naar Beloningsafstemming met Onbevooroordeelde Groepsvoordelen en Dynamische Coëfficiëntenrectificatie

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Samenvatting

Support