Parcours de Réplication O1 - Partie 2 : Dépasser O1-preview grâce à la Distillation Simple, Progrès Majeur ou Leçon Amère ?
O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?
November 25, 2024
Auteurs: Zhen Huang, Haoyang Zou, Xuefeng Li, Yixiu Liu, Yuxiang Zheng, Ethan Chern, Shijie Xia, Yiwei Qin, Weizhe Yuan, Pengfei Liu
cs.AI
Résumé
Cet article présente un examen critique des approches actuelles pour reproduire les capacités du modèle O1 d'OpenAI, en mettant particulièrement l'accent sur l'utilisation répandue mais souvent non divulguée des techniques de distillation des connaissances. Alors que notre travail précédent explorait le chemin technique fondamental vers la reproduction d'O1, cette étude révèle comment une distillation simple à partir de l'API d'O1, combinée à un fine-tuning supervisé, peut atteindre des performances supérieures sur des tâches complexes de raisonnement mathématique. À travers des expériences approfondies, nous montrons qu'un modèle de base fine-tuné sur simplement des dizaines de milliers d'échantillons distillés d'O1 surpasse les performances d'O1 sur l'Examen de Mathématiques Invitational Américain (AIME) avec une complexité technique minimale. De plus, notre investigation s'étend au-delà du raisonnement mathématique pour explorer les capacités de généralisation des modèles distillés d'O1 à travers diverses tâches : hallucination, sécurité et QA de domaine ouvert. Notamment, malgré l'entraînement uniquement sur des données de résolution de problèmes mathématiques, nos modèles ont démontré une forte capacité de généralisation aux tâches de QA ouvertes et sont devenus significativement moins susceptibles à la flagornerie après le fine-tuning. Nous rendons délibérément cette découverte publique pour promouvoir la transparence dans la recherche en IA et pour remettre en question la tendance actuelle des affirmations techniques obscurcies dans le domaine. Notre travail comprend : (1) Une exposition technique détaillée du processus de distillation et de son efficacité, (2) Un cadre de référence complet pour évaluer et catégoriser les tentatives de reproduction d'O1 en fonction de leur transparence technique et de leur reproductibilité, (3) Une discussion critique des limitations et des risques potentiels de trop compter sur les approches de distillation, notre analyse aboutit à une leçon amère cruciale : alors que la poursuite de systèmes IA plus capables est importante, le développement de chercheurs ancrés dans une pensée de premiers principes est primordial.
English
This paper presents a critical examination of current approaches to
replicating OpenAI's O1 model capabilities, with particular focus on the
widespread but often undisclosed use of knowledge distillation techniques.
While our previous work explored the fundamental technical path to O1
replication, this study reveals how simple distillation from O1's API, combined
with supervised fine-tuning, can achieve superior performance on complex
mathematical reasoning tasks. Through extensive experiments, we show that a
base model fine-tuned on simply tens of thousands of samples O1-distilled
long-thought chains outperforms O1-preview on the American Invitational
Mathematics Examination (AIME) with minimal technical complexity. Moreover, our
investigation extends beyond mathematical reasoning to explore the
generalization capabilities of O1-distilled models across diverse tasks:
hallucination, safety and open-domain QA. Notably, despite training only on
mathematical problem-solving data, our models demonstrated strong
generalization to open-ended QA tasks and became significantly less susceptible
to sycophancy after fine-tuning. We deliberately make this finding public to
promote transparency in AI research and to challenge the current trend of
obscured technical claims in the field. Our work includes: (1) A detailed
technical exposition of the distillation process and its effectiveness, (2) A
comprehensive benchmark framework for evaluating and categorizing O1
replication attempts based on their technical transparency and reproducibility,
(3) A critical discussion of the limitations and potential risks of
over-relying on distillation approaches, our analysis culminates in a crucial
bitter lesson: while the pursuit of more capable AI systems is important, the
development of researchers grounded in first-principles thinking is paramount.Summary
AI-Generated Summary