GFT: Del Ajuste por Imitación al Ajuste por Recompensas con Ventajas de Grupo Imparciales y Rectificación Dinámica de Coeficientes
GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification
April 15, 2026
Autores: Wangjie Gan, Miao Pan, Linbo Xi, Wenqi Zhang, Jintao Chen, Jianwei Yin, Xuhong Zhang
cs.AI
Resumen
Los modelos de lenguaje a gran escala suelen ajustarse posteriormente mediante fine-tuning supervisado (SFT) y aprendizaje por refuerzo (RL), aunque unificar eficazmente la inyección eficiente de conocimiento con una robusta generalización sigue siendo un desafío. En este trabajo, presentamos un análisis de la dinámica del entrenamiento que demuestra que el SFT puede interpretarse como un caso especial de optimización de gradiente de políticas con una recompensa implícita extremadamente dispersa y una ponderación inversa de probabilidad inestable, lo que en conjunto conduce a dependencia de trayectorias únicas, colapso de entropía y explosión de gradientes. Motivados por este diagnóstico, proponemos Group Fine-Tuning (GFT), un marco unificado de entrenamiento posterior que aborda estas limitaciones intrínsecas mediante dos mecanismos: Group Advantage Learning, que construye grupos de respuestas diversos y deriva una supervisión contrastiva normalizada para aliviar la dispersión de recompensas, y Dynamic Coefficient Rectification, que acota adaptativamente los pesos de probabilidad inversa para estabilizar la optimización mientras preserva la inyección eficiente de conocimiento. Los experimentos demuestran que GFT supera consistentemente a los métodos basados en SFT y produce políticas que se integran de manera más fluida con el entrenamiento posterior de RL.
English
Large language models are typically post-trained using supervised fine-tuning (SFT) and reinforcement learning (RL), yet effectively unifying efficient knowledge injection with robust generalization remains challenging. In this work, we provide a training-dynamics analysis showing that SFT can be interpreted as a special case of policy gradient optimization with an extremely sparse implicit reward and unstable inverse-probability weighting, which together lead to single-path dependency, entropy collapse, and gradient explosion. Motivated by this diagnosis, we propose Group Fine-Tuning (GFT), a unified post-training framework that addresses these intrinsic limitations through two mechanisms: Group Advantage Learning, which constructs diverse response groups and derives normalized contrastive supervision to alleviate reward sparsity, and Dynamic Coefficient Rectification, which adaptively bounds inverse-probability weights to stabilize optimization while preserving efficient knowledge injection. Experiments demonstrate that GFT consistently surpasses SFT-based methods and yields policies that integrate more smoothly with subsequent RL training.