GFT : De l'imitation au réglage fin par récompense avec des avantages de groupe non biaisés et une rectification dynamique des coefficients

Résumé

Les grands modèles de langage sont généralement affinés par post-formation via un apprentissage supervisé (SFT) et un apprentissage par renforcement (RL), mais unifier efficacement l'injection de connaissances avec une généralisation robuste reste difficile. Dans ce travail, nous proposons une analyse de la dynamique d'apprentissage montrant que le SFT peut être interprété comme un cas particulier d'optimisation par gradient de stratégie avec une récompense implicite extrêmement sparse et une pondération inverse-probabilité instable, conduisant ensemble à une dépendance unidirectionnelle, un effondrement de l'entropie et une explosion du gradient. Motivés par ce diagnostic, nous proposons le *Group Fine-Tuning* (GFT), un cadre de post-formation unifié qui résout ces limitations intrinsèques via deux mécanismes : le *Group Advantage Learning*, qui construit des groupes de réponses diversifiés et en dérive une supervision contrastive normalisée pour atténuer la sparsité des récompenses, et la *Dynamic Coefficient Rectification*, qui borne adaptativement les poids inverse-probabilité pour stabiliser l'optimisation tout en préservant l'injection efficace de connaissances. Les expériences démontrent que GFT surpasse constamment les méthodes basées sur SFT et produit des politiques qui s'intègrent plus harmonieusement avec l'entraînement RL ultérieur.

English

Large language models are typically post-trained using supervised fine-tuning (SFT) and reinforcement learning (RL), yet effectively unifying efficient knowledge injection with robust generalization remains challenging. In this work, we provide a training-dynamics analysis showing that SFT can be interpreted as a special case of policy gradient optimization with an extremely sparse implicit reward and unstable inverse-probability weighting, which together lead to single-path dependency, entropy collapse, and gradient explosion. Motivated by this diagnosis, we propose Group Fine-Tuning (GFT), a unified post-training framework that addresses these intrinsic limitations through two mechanisms: Group Advantage Learning, which constructs diverse response groups and derives normalized contrastive supervision to alleviate reward sparsity, and Dynamic Coefficient Rectification, which adaptively bounds inverse-probability weights to stabilize optimization while preserving efficient knowledge injection. Experiments demonstrate that GFT consistently surpasses SFT-based methods and yields policies that integrate more smoothly with subsequent RL training.

GFT : De l'imitation au réglage fin par récompense avec des avantages de groupe non biaisés et une rectification dynamique des coefficients

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Résumé

Support