GFT: Von der Imitation zur Belohnungs-Feinabstimmung mit unvoreingenommenen Gruppen-Vorteilen und dynamischer Koeffizienten-Rektifizierung

Zusammenfassung

Große Sprachmodelle werden typischerweise durch überwachtes Feintuning (SFT) und Reinforcement Learning (RL) nachtrainiert, doch die effektive Vereinigung effizienter Wissensintegration mit robuster Generalisierung bleibt eine Herausforderung. In dieser Arbeit liefern wir eine Analyse der Trainingsdynamik, die zeigt, dass SFT als Spezialfall der Policy-Gradient-Optimierung mit einem extrem spärlichen impliziten Belohnungssignal und instabiler Inverse-Probability-Wichtung interpretiert werden kann. Diese Faktoren führen gemeinsam zu Pfadabhängigkeit, Entropiekollaps und Gradientenexplosion. Aufbauend auf dieser Diagnose schlagen wir Group Fine-Tuning (GFT) vor, ein vereinheitlichtes Nachtrainierungsframework, das diese intrinsischen Limitationen durch zwei Mechanismen adressiert: Group Advantage Learning, das diverse Antwortgruppen konstruiert und normalisierte kontrastive Supervision ableitet, um Belohnungssparsamkeit zu mildern, sowie Dynamic Coefficient Rectification, das Inverse-Probability-Gewichte adaptiv begrenzt, um die Optimierung zu stabilisieren und gleichzeitig effiziente Wissensintegration zu bewahren. Experimente zeigen, dass GFT SFT-basierte Methoden konsistent übertrifft und Policies erzeugt, die sich nahtloser in nachfolgendes RL-Training integrieren lassen.

English

Large language models are typically post-trained using supervised fine-tuning (SFT) and reinforcement learning (RL), yet effectively unifying efficient knowledge injection with robust generalization remains challenging. In this work, we provide a training-dynamics analysis showing that SFT can be interpreted as a special case of policy gradient optimization with an extremely sparse implicit reward and unstable inverse-probability weighting, which together lead to single-path dependency, entropy collapse, and gradient explosion. Motivated by this diagnosis, we propose Group Fine-Tuning (GFT), a unified post-training framework that addresses these intrinsic limitations through two mechanisms: Group Advantage Learning, which constructs diverse response groups and derives normalized contrastive supervision to alleviate reward sparsity, and Dynamic Coefficient Rectification, which adaptively bounds inverse-probability weights to stabilize optimization while preserving efficient knowledge injection. Experiments demonstrate that GFT consistently surpasses SFT-based methods and yields policies that integrate more smoothly with subsequent RL training.

GFT: Von der Imitation zur Belohnungs-Feinabstimmung mit unvoreingenommenen Gruppen-Vorteilen und dynamischer Koeffizienten-Rektifizierung

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Zusammenfassung

Support