GFT: Do Ajuste por Imitação ao Ajuste Fino por Recompensa com Vantagens de Grupo Não Tendenciosas e Retificação Dinâmica de Coeficientes

Resumo

Os grandes modelos de linguagem são tipicamente pós-treinados usando ajuste fino supervisionado (SFT) e aprendizado por reforço (RL), porém unificar eficientemente a injeção de conhecimento com uma generalização robusta permanece um desafio. Neste trabalho, fornecemos uma análise da dinâmica de treinamento demonstrando que o SFT pode ser interpretado como um caso especial de otimização por gradiente de política com uma recompensa implícita extremamente esparsa e ponderação inversa de probabilidade instável, que juntas levam à dependência de caminho único, colapso de entropia e explosão do gradiente. Motivados por este diagnóstico, propomos o Ajuste Fino em Grupo (GFT), um framework unificado de pós-treinamento que aborda essas limitações intrínsecas através de dois mecanismos: o Aprendizado de Vantagem em Grupo, que constrói grupos de resposta diversos e deriva supervisão contrastiva normalizada para aliviar a esparsidade da recompensa, e a Retificação de Coeficiente Dinâmico, que limita adaptivamente os pesos de probabilidade inversa para estabilizar a otimização enquanto preserva a injeção eficiente de conhecimento. Experimentos demonstram que o GFT supera consistentemente métodos baseados em SFT e produz políticas que se integram mais suavemente com o treinamento subsequente de RL.

English

Large language models are typically post-trained using supervised fine-tuning (SFT) and reinforcement learning (RL), yet effectively unifying efficient knowledge injection with robust generalization remains challenging. In this work, we provide a training-dynamics analysis showing that SFT can be interpreted as a special case of policy gradient optimization with an extremely sparse implicit reward and unstable inverse-probability weighting, which together lead to single-path dependency, entropy collapse, and gradient explosion. Motivated by this diagnosis, we propose Group Fine-Tuning (GFT), a unified post-training framework that addresses these intrinsic limitations through two mechanisms: Group Advantage Learning, which constructs diverse response groups and derives normalized contrastive supervision to alleviate reward sparsity, and Dynamic Coefficient Rectification, which adaptively bounds inverse-probability weights to stabilize optimization while preserving efficient knowledge injection. Experiments demonstrate that GFT consistently surpasses SFT-based methods and yields policies that integrate more smoothly with subsequent RL training.

GFT: Do Ajuste por Imitação ao Ajuste Fino por Recompensa com Vantagens de Grupo Não Tendenciosas e Retificação Dinâmica de Coeficientes

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Resumo

Support