ChatPaper.aiChatPaper

Critique Fine-Tuning : Apprendre à Critiquer est Plus Efficace que Apprendre à Imiter

Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

January 29, 2025
Auteurs: Yubo Wang, Xiang Yue, Wenhu Chen
cs.AI

Résumé

Le Fine-Tuning Supervisé (SFT) est couramment utilisé pour entraîner des modèles de langage à imiter des réponses annotées pour des instructions données. Dans cet article, nous remettons en question ce paradigme et proposons le Fine-Tuning de Critique (CFT), une stratégie où les modèles apprennent à critiquer des réponses bruyantes plutôt que simplement imiter des réponses correctes. Inspiré par les processus d'apprentissage humain qui mettent l'accent sur la pensée critique, le CFT encourage une analyse plus approfondie et une compréhension nuancée - des caractéristiques souvent négligées par le SFT standard. Pour valider l'efficacité du CFT, nous construisons un ensemble de données de 50 000 échantillons à partir de WebInstruct, en utilisant GPT-4o comme enseignant pour générer des critiques sous la forme (entrée=[requête; réponse bruyante], sortie=critique). Le CFT sur cet ensemble de données produit une amélioration constante de 4 à 10 % par rapport au SFT sur six benchmarks mathématiques avec différents modèles de base tels que Qwen2.5, Qwen2.5-Math et DeepSeek-Math. Nous étendons ensuite aux ensembles de données MetaMath et NuminaMath et observons des gains similaires par rapport au SFT. Notamment, notre modèle Qwen2.5-Math-CFT, entraîné sur seulement 50 000 échantillons, égale ou surpasse des modèles compétitifs tels que AceMath et Qwen2.5-Math-Instruct sur la plupart des benchmarks, qui utilisent tous deux plus de 2 millions d'échantillons. Des études d'ablation montrent que le CFT est robuste à la source de la réponse bruyante et au modèle de critique de l'enseignant. À travers ces résultats, nous soutenons que la formation basée sur la critique offre une alternative plus efficace pour faire progresser le raisonnement des modèles de langage.
English
Supervised Fine-Tuning (SFT) is commonly used to train language models to imitate annotated responses for given instructions. In this paper, we challenge this paradigm and propose Critique Fine-Tuning (CFT), a strategy where models learn to critique noisy responses rather than simply imitate correct ones. Inspired by human learning processes that emphasize critical thinking, CFT encourages deeper analysis and nuanced understanding-traits often overlooked by standard SFT. To validate the effectiveness of CFT, we construct a 50K-sample dataset from WebInstruct, using GPT-4o as the teacher to generate critiques in the form of (input=[query; noisy response], output=critique). CFT on this dataset yields a consistent 4-10% improvement over SFT on six math benchmarks with different base models like Qwen2.5, Qwen2.5-Math and DeepSeek-Math. We further expand to MetaMath and NuminaMath datasets and observe similar gains over SFT. Notably, our Qwen2.5-Math-CFT model-trained on just 50K samples-matches or outperforms competitive models such as AceMath and Qwen2.5-Math-Instruct on most benchmarks, both of which use over 2M samples. Ablation studies show that CFT is robust to the source of noisy response and teacher critique model. Through these findings, we argue that critique-based training offers a more effective alternative to advance the reasoning of language models.

Summary

AI-Generated Summary

PDF596January 30, 2025