Путешествие O1 по репликации - Часть 2: Превосходство над O1-предпросмотром через Простую Дистилляцию, Большой Прогресс или Горький Урок?O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple
Distillation, Big Progress or Bitter Lesson?
Данная статья представляет критический анализ текущих подходов к воспроизведению возможностей модели O1 от OpenAI, с особым вниманием к широко распространенному, но часто скрытому использованию техник дистилляции знаний. В то время как наша предыдущая работа исследовала фундаментальный технический путь к воспроизведению O1, данное исследование показывает, как простая дистилляция из API O1, в сочетании с надзорным дообучением, может достичь более высокой производительности на сложных задачах математического рассуждения. Через обширные эксперименты мы показываем, что базовая модель, дообученная всего лишь на десятках тысяч образцов O1-дистиллированных длинных цепочек мыслей, превосходит O1-preview на American Invitational Mathematics Examination (AIME) с минимальной технической сложностью. Более того, наше исследование выходит за пределы математического рассуждения, чтобы исследовать обобщающие способности O1-дистиллированных моделей на различных задачах: галлюцинация, безопасность и вопросно-ответные системы в открытой области. Заметно, что несмотря на обучение только на данных по решению математических задач, наши модели продемонстрировали сильное обобщение на задачи открытого вопросно-ответного формата и стали значительно менее подвержены подхалимству после дообучения. Мы намеренно делаем это открытым для общественности, чтобы способствовать прозрачности в исследованиях в области искусственного интеллекта и вызвать на вызов текущему тренду затемненных технических утверждений в данной области. Наша работа включает: (1) Подробное техническое изложение процесса дистилляции и его эффективности, (2) Комплексная система оценки и категоризации попыток воспроизведения O1 на основе их технической прозрачности и воспроизводимости, (3) Критическое обсуждение ограничений и потенциальных рисков чрезмерной зависимости от подходов дистилляции, наш анализ завершается важным горьким уроком: важность развития исследователей, укорененных в мышлении первых принципов, несравненно выше, чем стремление к более способным системам искусственного интеллекта.