Критика настройки модели: обучение критике эффективнее, чем обучение имитации.

Аннотация

Надзорное донастройка (SFT) часто используется для обучения языковых моделей имитировать аннотированные ответы на заданные инструкции. В данной статье мы оспариваем эту парадигму и предлагаем Критическую донастройку (CFT), стратегию, при которой модели учатся критиковать шумные ответы, а не просто имитировать правильные. Вдохновленные человеческими процессами обучения, акцентирующими критическое мышление, CFT поощряет более глубокий анализ и нюансированное понимание - черты, часто игнорируемые стандартным SFT. Для проверки эффективности CFT мы создаем набор данных из 50 тыс. примеров из WebInstruct, используя GPT-4o в качестве учителя для генерации критик в форме (ввод=[запрос; шумный ответ], вывод=критика). Применение CFT к этому набору данных приводит к последовательному улучшению на 4-10% по сравнению с SFT на шести математических бенчмарках с различными базовыми моделями, такими как Qwen2.5, Qwen2.5-Math и DeepSeek-Math. Мы также расширяемся на наборы данных MetaMath и NuminaMath и наблюдаем аналогичный прирост по сравнению с SFT. Заметно, что наша модель Qwen2.5-Math-CFT, обученная всего на 50 тыс. примерах, соответствует или превосходит конкурентные модели, такие как AceMath и Qwen2.5-Math-Instruct на большинстве бенчмарков, обе из которых используют более 2 млн примеров. Исследования абляции показывают, что CFT устойчив к источнику шумного ответа и модели учителя критики. На основе этих результатов мы утверждаем, что обучение на основе критики предлагает более эффективную альтернативу для развития рассуждений языковых моделей.

English

Supervised Fine-Tuning (SFT) is commonly used to train language models to imitate annotated responses for given instructions. In this paper, we challenge this paradigm and propose Critique Fine-Tuning (CFT), a strategy where models learn to critique noisy responses rather than simply imitate correct ones. Inspired by human learning processes that emphasize critical thinking, CFT encourages deeper analysis and nuanced understanding-traits often overlooked by standard SFT. To validate the effectiveness of CFT, we construct a 50K-sample dataset from WebInstruct, using GPT-4o as the teacher to generate critiques in the form of (input=[query; noisy response], output=critique). CFT on this dataset yields a consistent 4-10% improvement over SFT on six math benchmarks with different base models like Qwen2.5, Qwen2.5-Math and DeepSeek-Math. We further expand to MetaMath and NuminaMath datasets and observe similar gains over SFT. Notably, our Qwen2.5-Math-CFT model-trained on just 50K samples-matches or outperforms competitive models such as AceMath and Qwen2.5-Math-Instruct on most benchmarks, both of which use over 2M samples. Ablation studies show that CFT is robust to the source of noisy response and teacher critique model. Through these findings, we argue that critique-based training offers a more effective alternative to advance the reasoning of language models.

Критика настройки модели: обучение критике эффективнее, чем обучение имитации.

Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

Аннотация

Support