Fine-Tuning批判:学会批判比学会模仿更有效Critique Fine-Tuning: Learning to Critique is More Effective than
Learning to Imitate
监督微调(SFT)通常用于训练语言模型模仿给定指令的注释响应。在本文中,我们挑战这一范式,并提出批判性微调(CFT),这是一种策略,模型学习批判性地分析嘈杂的响应,而不仅仅是简单地模仿正确的响应。受强调批判性思维的人类学习过程的启发,CFT鼓励更深入的分析和细致的理解,这些特征常常被标准SFT忽视。为了验证CFT的有效性,我们从WebInstruct构建了一个包含5万个样本的数据集,使用GPT-4o作为教师生成批评,形式为(输入=[查询;嘈杂响应],输出=批评)。在这个数据集上进行的CFT相对于六个数学基准测试中的不同基础模型(如Qwen2.5、Qwen2.5-Math和DeepSeek-Math)的SFT表现出了一致的4-10%的改进。我们进一步扩展到MetaMath和NuminaMath数据集,并观察到相对于SFT的类似增益。值得注意的是,我们的Qwen2.5-Math-CFT模型仅在5万个样本上训练,与使用超过2百万个样本的竞争模型AceMath和Qwen2.5-Math-Instruct在大多数基准测试中相匹敌或表现更好。消融研究表明,CFT对嘈杂响应来源和教师批评模型具有鲁棒性。通过这些发现,我们认为基于批评的训练提供了一个更有效的选择,以推进语言模型的推理能力。