ChatPaper.aiChatPaper

O1 Replikationsreise – Teil 2: Über O1-Vorschau hinaus durch einfache Destillation, großer Fortschritt oder bittere Lektion?

O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?

November 25, 2024
Autoren: Zhen Huang, Haoyang Zou, Xuefeng Li, Yixiu Liu, Yuxiang Zheng, Ethan Chern, Shijie Xia, Yiwei Qin, Weizhe Yuan, Pengfei Liu
cs.AI

Zusammenfassung

Dieses Paper präsentiert eine kritische Untersuchung der aktuellen Ansätze zur Replikation der Fähigkeiten des O1-Modells von OpenAI, wobei der weit verbreiteten, aber oft unerwähnten Verwendung von Wissensdestillations-Techniken besondere Aufmerksamkeit geschenkt wird. Während unsere vorherige Arbeit den grundlegenden technischen Pfad zur Replikation von O1 erforschte, zeigt diese Studie, wie einfache Destillation aus der API von O1 in Kombination mit überwachtem Feintuning eine überlegene Leistung bei komplexen mathematischen Denkaufgaben erzielen kann. Durch umfangreiche Experimente zeigen wir, dass ein Basismodell, das einfach auf Zehntausenden von O1-destillierten Proben feinabgestimmt wurde, O1-Vorschauen bei der American Invitational Mathematics Examination (AIME) mit minimaler technischer Komplexität übertrifft. Darüber hinaus erstreckt sich unsere Untersuchung über mathematisches Denken hinaus, um die Verallgemeinerungsfähigkeiten von O1-destillierten Modellen über verschiedene Aufgaben hinweg zu erkunden: Halluzination, Sicherheit und Open-Domain-Fragen und Antworten. Bemerkenswert ist, dass unsere Modelle trotz des Trainings nur auf mathematischen Problemlösungsdaten eine starke Verallgemeinerungsfähigkeit für offene Fragen und Antworten zeigten und nach dem Feintuning deutlich weniger anfällig für Schmeichelei wurden. Wir machen diese Erkenntnis bewusst öffentlich, um die Transparenz in der KI-Forschung zu fördern und den aktuellen Trend verschleierter technischer Behauptungen in diesem Bereich herauszufordern. Unsere Arbeit umfasst: (1) Eine detaillierte technische Darstellung des Destillationsprozesses und seiner Wirksamkeit, (2) Ein umfassendes Benchmark-Framework zur Bewertung und Kategorisierung von O1-Replikationsversuchen basierend auf ihrer technischen Transparenz und Reproduzierbarkeit, (3) Eine kritische Diskussion der Einschränkungen und potenziellen Risiken einer übermäßigen Nutzung von Destillationsansätzen. Unsere Analyse mündet in einer entscheidenden bitteren Lektion: Während die Verfolgung leistungsfähigerer KI-Systeme wichtig ist, ist die Entwicklung von Forschern, die auf erstprinzipiellem Denken basieren, von höchster Bedeutung.
English
This paper presents a critical examination of current approaches to replicating OpenAI's O1 model capabilities, with particular focus on the widespread but often undisclosed use of knowledge distillation techniques. While our previous work explored the fundamental technical path to O1 replication, this study reveals how simple distillation from O1's API, combined with supervised fine-tuning, can achieve superior performance on complex mathematical reasoning tasks. Through extensive experiments, we show that a base model fine-tuned on simply tens of thousands of samples O1-distilled long-thought chains outperforms O1-preview on the American Invitational Mathematics Examination (AIME) with minimal technical complexity. Moreover, our investigation extends beyond mathematical reasoning to explore the generalization capabilities of O1-distilled models across diverse tasks: hallucination, safety and open-domain QA. Notably, despite training only on mathematical problem-solving data, our models demonstrated strong generalization to open-ended QA tasks and became significantly less susceptible to sycophancy after fine-tuning. We deliberately make this finding public to promote transparency in AI research and to challenge the current trend of obscured technical claims in the field. Our work includes: (1) A detailed technical exposition of the distillation process and its effectiveness, (2) A comprehensive benchmark framework for evaluating and categorizing O1 replication attempts based on their technical transparency and reproducibility, (3) A critical discussion of the limitations and potential risks of over-relying on distillation approaches, our analysis culminates in a crucial bitter lesson: while the pursuit of more capable AI systems is important, the development of researchers grounded in first-principles thinking is paramount.
PDF492November 26, 2024