Критика настройки модели: обучение критике эффективнее, чем обучение имитации.Critique Fine-Tuning: Learning to Critique is More Effective than
Learning to Imitate
Надзорное донастройка (SFT) часто используется для обучения языковых моделей имитировать аннотированные ответы на заданные инструкции. В данной статье мы оспариваем эту парадигму и предлагаем Критическую донастройку (CFT), стратегию, при которой модели учатся критиковать шумные ответы, а не просто имитировать правильные. Вдохновленные человеческими процессами обучения, акцентирующими критическое мышление, CFT поощряет более глубокий анализ и нюансированное понимание - черты, часто игнорируемые стандартным SFT. Для проверки эффективности CFT мы создаем набор данных из 50 тыс. примеров из WebInstruct, используя GPT-4o в качестве учителя для генерации критик в форме (ввод=[запрос; шумный ответ], вывод=критика). Применение CFT к этому набору данных приводит к последовательному улучшению на 4-10% по сравнению с SFT на шести математических бенчмарках с различными базовыми моделями, такими как Qwen2.5, Qwen2.5-Math и DeepSeek-Math. Мы также расширяемся на наборы данных MetaMath и NuminaMath и наблюдаем аналогичный прирост по сравнению с SFT. Заметно, что наша модель Qwen2.5-Math-CFT, обученная всего на 50 тыс. примерах, соответствует или превосходит конкурентные модели, такие как AceMath и Qwen2.5-Math-Instruct на большинстве бенчмарков, обе из которых используют более 2 млн примеров. Исследования абляции показывают, что CFT устойчив к источнику шумного ответа и модели учителя критики. На основе этих результатов мы утверждаем, что обучение на основе критики предлагает более эффективную альтернативу для развития рассуждений языковых моделей.