Critique Fine-Tuning : Apprendre à Critiquer est Plus Efficace que
Apprendre à ImiterCritique Fine-Tuning: Learning to Critique is More Effective than
Learning to Imitate
Le Fine-Tuning Supervisé (SFT) est couramment utilisé pour entraîner des modèles de langage à imiter des réponses annotées pour des instructions données. Dans cet article, nous remettons en question ce paradigme et proposons le Fine-Tuning de Critique (CFT), une stratégie où les modèles apprennent à critiquer des réponses bruyantes plutôt que simplement imiter des réponses correctes. Inspiré par les processus d'apprentissage humain qui mettent l'accent sur la pensée critique, le CFT encourage une analyse plus approfondie et une compréhension nuancée - des caractéristiques souvent négligées par le SFT standard. Pour valider l'efficacité du CFT, nous construisons un ensemble de données de 50 000 échantillons à partir de WebInstruct, en utilisant GPT-4o comme enseignant pour générer des critiques sous la forme (entrée=[requête; réponse bruyante], sortie=critique). Le CFT sur cet ensemble de données produit une amélioration constante de 4 à 10 % par rapport au SFT sur six benchmarks mathématiques avec différents modèles de base tels que Qwen2.5, Qwen2.5-Math et DeepSeek-Math. Nous étendons ensuite aux ensembles de données MetaMath et NuminaMath et observons des gains similaires par rapport au SFT. Notamment, notre modèle Qwen2.5-Math-CFT, entraîné sur seulement 50 000 échantillons, égale ou surpasse des modèles compétitifs tels que AceMath et Qwen2.5-Math-Instruct sur la plupart des benchmarks, qui utilisent tous deux plus de 2 millions d'échantillons. Des études d'ablation montrent que le CFT est robuste à la source de la réponse bruyante et au modèle de critique de l'enseignant. À travers ces résultats, nous soutenons que la formation basée sur la critique offre une alternative plus efficace pour faire progresser le raisonnement des modèles de langage.