Критика настройки модели: обучение критике эффективнее, чем обучение имитации.
Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate
January 29, 2025
Авторы: Yubo Wang, Xiang Yue, Wenhu Chen
cs.AI
Аннотация
Надзорное донастройка (SFT) часто используется для обучения языковых моделей имитировать аннотированные ответы на заданные инструкции. В данной статье мы оспариваем эту парадигму и предлагаем Критическую донастройку (CFT), стратегию, при которой модели учатся критиковать шумные ответы, а не просто имитировать правильные. Вдохновленные человеческими процессами обучения, акцентирующими критическое мышление, CFT поощряет более глубокий анализ и нюансированное понимание - черты, часто игнорируемые стандартным SFT. Для проверки эффективности CFT мы создаем набор данных из 50 тыс. примеров из WebInstruct, используя GPT-4o в качестве учителя для генерации критик в форме (ввод=[запрос; шумный ответ], вывод=критика). Применение CFT к этому набору данных приводит к последовательному улучшению на 4-10% по сравнению с SFT на шести математических бенчмарках с различными базовыми моделями, такими как Qwen2.5, Qwen2.5-Math и DeepSeek-Math. Мы также расширяемся на наборы данных MetaMath и NuminaMath и наблюдаем аналогичный прирост по сравнению с SFT. Заметно, что наша модель Qwen2.5-Math-CFT, обученная всего на 50 тыс. примерах, соответствует или превосходит конкурентные модели, такие как AceMath и Qwen2.5-Math-Instruct на большинстве бенчмарков, обе из которых используют более 2 млн примеров. Исследования абляции показывают, что CFT устойчив к источнику шумного ответа и модели учителя критики. На основе этих результатов мы утверждаем, что обучение на основе критики предлагает более эффективную альтернативу для развития рассуждений языковых моделей.
English
Supervised Fine-Tuning (SFT) is commonly used to train language models to
imitate annotated responses for given instructions. In this paper, we challenge
this paradigm and propose Critique Fine-Tuning (CFT), a strategy where models
learn to critique noisy responses rather than simply imitate correct ones.
Inspired by human learning processes that emphasize critical thinking, CFT
encourages deeper analysis and nuanced understanding-traits often overlooked by
standard SFT. To validate the effectiveness of CFT, we construct a 50K-sample
dataset from WebInstruct, using GPT-4o as the teacher to generate critiques in
the form of (input=[query; noisy response], output=critique). CFT on this
dataset yields a consistent 4-10% improvement over SFT on six math benchmarks
with different base models like Qwen2.5, Qwen2.5-Math and DeepSeek-Math. We
further expand to MetaMath and NuminaMath datasets and observe similar gains
over SFT. Notably, our Qwen2.5-Math-CFT model-trained on just 50K
samples-matches or outperforms competitive models such as AceMath and
Qwen2.5-Math-Instruct on most benchmarks, both of which use over 2M samples.
Ablation studies show that CFT is robust to the source of noisy response and
teacher critique model. Through these findings, we argue that critique-based
training offers a more effective alternative to advance the reasoning of
language models.Summary
AI-Generated Summary