Путешествие O1 по репликации - Часть 2: Превосходство над O1-предпросмотром через Простую Дистилляцию, Большой Прогресс или Горький Урок?
O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?
November 25, 2024
Авторы: Zhen Huang, Haoyang Zou, Xuefeng Li, Yixiu Liu, Yuxiang Zheng, Ethan Chern, Shijie Xia, Yiwei Qin, Weizhe Yuan, Pengfei Liu
cs.AI
Аннотация
Данная статья представляет критический анализ текущих подходов к воспроизведению возможностей модели O1 от OpenAI, с особым вниманием к широко распространенному, но часто скрытому использованию техник дистилляции знаний. В то время как наша предыдущая работа исследовала фундаментальный технический путь к воспроизведению O1, данное исследование показывает, как простая дистилляция из API O1, в сочетании с надзорным дообучением, может достичь более высокой производительности на сложных задачах математического рассуждения. Через обширные эксперименты мы показываем, что базовая модель, дообученная всего лишь на десятках тысяч образцов O1-дистиллированных длинных цепочек мыслей, превосходит O1-preview на American Invitational Mathematics Examination (AIME) с минимальной технической сложностью. Более того, наше исследование выходит за пределы математического рассуждения, чтобы исследовать обобщающие способности O1-дистиллированных моделей на различных задачах: галлюцинация, безопасность и вопросно-ответные системы в открытой области. Заметно, что несмотря на обучение только на данных по решению математических задач, наши модели продемонстрировали сильное обобщение на задачи открытого вопросно-ответного формата и стали значительно менее подвержены подхалимству после дообучения. Мы намеренно делаем это открытым для общественности, чтобы способствовать прозрачности в исследованиях в области искусственного интеллекта и вызвать на вызов текущему тренду затемненных технических утверждений в данной области. Наша работа включает: (1) Подробное техническое изложение процесса дистилляции и его эффективности, (2) Комплексная система оценки и категоризации попыток воспроизведения O1 на основе их технической прозрачности и воспроизводимости, (3) Критическое обсуждение ограничений и потенциальных рисков чрезмерной зависимости от подходов дистилляции, наш анализ завершается важным горьким уроком: важность развития исследователей, укорененных в мышлении первых принципов, несравненно выше, чем стремление к более способным системам искусственного интеллекта.
English
This paper presents a critical examination of current approaches to
replicating OpenAI's O1 model capabilities, with particular focus on the
widespread but often undisclosed use of knowledge distillation techniques.
While our previous work explored the fundamental technical path to O1
replication, this study reveals how simple distillation from O1's API, combined
with supervised fine-tuning, can achieve superior performance on complex
mathematical reasoning tasks. Through extensive experiments, we show that a
base model fine-tuned on simply tens of thousands of samples O1-distilled
long-thought chains outperforms O1-preview on the American Invitational
Mathematics Examination (AIME) with minimal technical complexity. Moreover, our
investigation extends beyond mathematical reasoning to explore the
generalization capabilities of O1-distilled models across diverse tasks:
hallucination, safety and open-domain QA. Notably, despite training only on
mathematical problem-solving data, our models demonstrated strong
generalization to open-ended QA tasks and became significantly less susceptible
to sycophancy after fine-tuning. We deliberately make this finding public to
promote transparency in AI research and to challenge the current trend of
obscured technical claims in the field. Our work includes: (1) A detailed
technical exposition of the distillation process and its effectiveness, (2) A
comprehensive benchmark framework for evaluating and categorizing O1
replication attempts based on their technical transparency and reproducibility,
(3) A critical discussion of the limitations and potential risks of
over-relying on distillation approaches, our analysis culminates in a crucial
bitter lesson: while the pursuit of more capable AI systems is important, the
development of researchers grounded in first-principles thinking is paramount.Summary
AI-Generated Summary