GFT: От имитации к тонкой настройке через вознаграждение с использованием несмещённых групповых преимуществ и динамической коррекции коэффициентов

Аннотация

Крупные языковые модели обычно дообучаются с использованием контролируемой тонкой настройки (SFT) и обучения с подкреплением (RL), однако эффективное объединение результативного внедрения знаний с устойчивой обобщающей способностью остается сложной задачей. В данной работе мы проводим анализ динамики обучения, показывающий, что SFT можно интерпретировать как частный случай оптимизации градиента политики с чрезвычайно разреженной неявной наградой и нестабильным взвешиванием по обратной вероятности, что в совокупности приводит к зависимости от единственного пути, коллапсу энтропии и взрыву градиента. Мотивированные этим диагнозом, мы предлагаем Групповую тонкую настройку (GFT) — унифицированную框架 дообучения, которая устраняет эти внутренние ограничения с помощью двух механизмов: Group Advantage Learning, который создает разнородные группы ответов и извлекает нормализованные контрастные сигналы для смягчения разреженности награды, и Dynamic Coefficient Rectification, который адаптивно ограничивает веса обратной вероятности для стабилизации оптимизации при сохранении эффективного внедрения знаний. Эксперименты показывают, что GFT стабильно превосходит методы на основе SFT и порождает политики, которые более плавно интегрируются с последующим обучением с подкреплением.

English

Large language models are typically post-trained using supervised fine-tuning (SFT) and reinforcement learning (RL), yet effectively unifying efficient knowledge injection with robust generalization remains challenging. In this work, we provide a training-dynamics analysis showing that SFT can be interpreted as a special case of policy gradient optimization with an extremely sparse implicit reward and unstable inverse-probability weighting, which together lead to single-path dependency, entropy collapse, and gradient explosion. Motivated by this diagnosis, we propose Group Fine-Tuning (GFT), a unified post-training framework that addresses these intrinsic limitations through two mechanisms: Group Advantage Learning, which constructs diverse response groups and derives normalized contrastive supervision to alleviate reward sparsity, and Dynamic Coefficient Rectification, which adaptively bounds inverse-probability weights to stabilize optimization while preserving efficient knowledge injection. Experiments demonstrate that GFT consistently surpasses SFT-based methods and yields policies that integrate more smoothly with subsequent RL training.

GFT: От имитации к тонкой настройке через вознаграждение с использованием несмещённых групповых преимуществ и динамической коррекции коэффициентов

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Аннотация

Support