Viaje de Replicación O1 - Parte 2: ¿Superando O1-preview a través de una Destilación Simple, Gran Progreso o Lección Amarga?
O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?
November 25, 2024
Autores: Zhen Huang, Haoyang Zou, Xuefeng Li, Yixiu Liu, Yuxiang Zheng, Ethan Chern, Shijie Xia, Yiwei Qin, Weizhe Yuan, Pengfei Liu
cs.AI
Resumen
Este documento presenta un examen crítico de los enfoques actuales para replicar las capacidades del modelo O1 de OpenAI, con un enfoque particular en el uso generalizado pero a menudo no divulgado de técnicas de destilación de conocimiento. Mientras que nuestro trabajo anterior exploró el camino técnico fundamental para replicar O1, este estudio revela cómo la simple destilación desde la API de O1, combinada con un ajuste fino supervisado, puede lograr un rendimiento superior en tareas complejas de razonamiento matemático. A través de experimentos extensos, demostramos que un modelo base ajustado fino en simplemente decenas de miles de muestras destiladas de O1 supera a O1 en la American Invitational Mathematics Examination (AIME) con una complejidad técnica mínima. Además, nuestra investigación se extiende más allá del razonamiento matemático para explorar las capacidades de generalización de los modelos destilados de O1 en diversas tareas: alucinación, seguridad y preguntas y respuestas de dominio abierto. Es notable que, a pesar de entrenar solo con datos de resolución de problemas matemáticos, nuestros modelos demostraron una fuerte capacidad de generalización a tareas de preguntas y respuestas abiertas y se volvieron significativamente menos susceptibles a la adulación después del ajuste fino. Deliberadamente hacemos este hallazgo público para promover la transparencia en la investigación de IA y desafiar la tendencia actual de afirmaciones técnicas oscurecidas en el campo. Nuestro trabajo incluye: (1) Una exposición técnica detallada del proceso de destilación y su efectividad, (2) Un marco de referencia de evaluación integral para evaluar y categorizar intentos de replicación de O1 basados en su transparencia técnica y reproducibilidad, (3) Una discusión crítica de las limitaciones y riesgos potenciales de depender demasiado de enfoques de destilación, nuestro análisis culmina en una lección amarga crucial: si bien la búsqueda de sistemas de IA más capaces es importante, el desarrollo de investigadores fundamentados en el pensamiento de primeros principios es primordial.
English
This paper presents a critical examination of current approaches to
replicating OpenAI's O1 model capabilities, with particular focus on the
widespread but often undisclosed use of knowledge distillation techniques.
While our previous work explored the fundamental technical path to O1
replication, this study reveals how simple distillation from O1's API, combined
with supervised fine-tuning, can achieve superior performance on complex
mathematical reasoning tasks. Through extensive experiments, we show that a
base model fine-tuned on simply tens of thousands of samples O1-distilled
long-thought chains outperforms O1-preview on the American Invitational
Mathematics Examination (AIME) with minimal technical complexity. Moreover, our
investigation extends beyond mathematical reasoning to explore the
generalization capabilities of O1-distilled models across diverse tasks:
hallucination, safety and open-domain QA. Notably, despite training only on
mathematical problem-solving data, our models demonstrated strong
generalization to open-ended QA tasks and became significantly less susceptible
to sycophancy after fine-tuning. We deliberately make this finding public to
promote transparency in AI research and to challenge the current trend of
obscured technical claims in the field. Our work includes: (1) A detailed
technical exposition of the distillation process and its effectiveness, (2) A
comprehensive benchmark framework for evaluating and categorizing O1
replication attempts based on their technical transparency and reproducibility,
(3) A critical discussion of the limitations and potential risks of
over-relying on distillation approaches, our analysis culminates in a crucial
bitter lesson: while the pursuit of more capable AI systems is important, the
development of researchers grounded in first-principles thinking is paramount.Summary
AI-Generated Summary