ChatPaper.aiChatPaper

Путешествие O1 по репликации - Часть 2: Превосходство над O1-предпросмотром через Простую Дистилляцию, Большой Прогресс или Горький Урок?

O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?

November 25, 2024
Авторы: Zhen Huang, Haoyang Zou, Xuefeng Li, Yixiu Liu, Yuxiang Zheng, Ethan Chern, Shijie Xia, Yiwei Qin, Weizhe Yuan, Pengfei Liu
cs.AI

Аннотация

Данная статья представляет критический анализ текущих подходов к воспроизведению возможностей модели O1 от OpenAI, с особым вниманием к широко распространенному, но часто скрытому использованию техник дистилляции знаний. В то время как наша предыдущая работа исследовала фундаментальный технический путь к воспроизведению O1, данное исследование показывает, как простая дистилляция из API O1, в сочетании с надзорным дообучением, может достичь более высокой производительности на сложных задачах математического рассуждения. Через обширные эксперименты мы показываем, что базовая модель, дообученная всего лишь на десятках тысяч образцов O1-дистиллированных длинных цепочек мыслей, превосходит O1-preview на American Invitational Mathematics Examination (AIME) с минимальной технической сложностью. Более того, наше исследование выходит за пределы математического рассуждения, чтобы исследовать обобщающие способности O1-дистиллированных моделей на различных задачах: галлюцинация, безопасность и вопросно-ответные системы в открытой области. Заметно, что несмотря на обучение только на данных по решению математических задач, наши модели продемонстрировали сильное обобщение на задачи открытого вопросно-ответного формата и стали значительно менее подвержены подхалимству после дообучения. Мы намеренно делаем это открытым для общественности, чтобы способствовать прозрачности в исследованиях в области искусственного интеллекта и вызвать на вызов текущему тренду затемненных технических утверждений в данной области. Наша работа включает: (1) Подробное техническое изложение процесса дистилляции и его эффективности, (2) Комплексная система оценки и категоризации попыток воспроизведения O1 на основе их технической прозрачности и воспроизводимости, (3) Критическое обсуждение ограничений и потенциальных рисков чрезмерной зависимости от подходов дистилляции, наш анализ завершается важным горьким уроком: важность развития исследователей, укорененных в мышлении первых принципов, несравненно выше, чем стремление к более способным системам искусственного интеллекта.
English
This paper presents a critical examination of current approaches to replicating OpenAI's O1 model capabilities, with particular focus on the widespread but often undisclosed use of knowledge distillation techniques. While our previous work explored the fundamental technical path to O1 replication, this study reveals how simple distillation from O1's API, combined with supervised fine-tuning, can achieve superior performance on complex mathematical reasoning tasks. Through extensive experiments, we show that a base model fine-tuned on simply tens of thousands of samples O1-distilled long-thought chains outperforms O1-preview on the American Invitational Mathematics Examination (AIME) with minimal technical complexity. Moreover, our investigation extends beyond mathematical reasoning to explore the generalization capabilities of O1-distilled models across diverse tasks: hallucination, safety and open-domain QA. Notably, despite training only on mathematical problem-solving data, our models demonstrated strong generalization to open-ended QA tasks and became significantly less susceptible to sycophancy after fine-tuning. We deliberately make this finding public to promote transparency in AI research and to challenge the current trend of obscured technical claims in the field. Our work includes: (1) A detailed technical exposition of the distillation process and its effectiveness, (2) A comprehensive benchmark framework for evaluating and categorizing O1 replication attempts based on their technical transparency and reproducibility, (3) A critical discussion of the limitations and potential risks of over-relying on distillation approaches, our analysis culminates in a crucial bitter lesson: while the pursuit of more capable AI systems is important, the development of researchers grounded in first-principles thinking is paramount.

Summary

AI-Generated Summary

PDF492November 26, 2024