ChatPaper.aiChatPaper

Viaje de Replicación O1 - Parte 2: ¿Superando O1-preview a través de una Destilación Simple, Gran Progreso o Lección Amarga?

O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?

November 25, 2024
Autores: Zhen Huang, Haoyang Zou, Xuefeng Li, Yixiu Liu, Yuxiang Zheng, Ethan Chern, Shijie Xia, Yiwei Qin, Weizhe Yuan, Pengfei Liu
cs.AI

Resumen

Este documento presenta un examen crítico de los enfoques actuales para replicar las capacidades del modelo O1 de OpenAI, con un enfoque particular en el uso generalizado pero a menudo no divulgado de técnicas de destilación de conocimiento. Mientras que nuestro trabajo anterior exploró el camino técnico fundamental para replicar O1, este estudio revela cómo la simple destilación desde la API de O1, combinada con un ajuste fino supervisado, puede lograr un rendimiento superior en tareas complejas de razonamiento matemático. A través de experimentos extensos, demostramos que un modelo base ajustado fino en simplemente decenas de miles de muestras destiladas de O1 supera a O1 en la American Invitational Mathematics Examination (AIME) con una complejidad técnica mínima. Además, nuestra investigación se extiende más allá del razonamiento matemático para explorar las capacidades de generalización de los modelos destilados de O1 en diversas tareas: alucinación, seguridad y preguntas y respuestas de dominio abierto. Es notable que, a pesar de entrenar solo con datos de resolución de problemas matemáticos, nuestros modelos demostraron una fuerte capacidad de generalización a tareas de preguntas y respuestas abiertas y se volvieron significativamente menos susceptibles a la adulación después del ajuste fino. Deliberadamente hacemos este hallazgo público para promover la transparencia en la investigación de IA y desafiar la tendencia actual de afirmaciones técnicas oscurecidas en el campo. Nuestro trabajo incluye: (1) Una exposición técnica detallada del proceso de destilación y su efectividad, (2) Un marco de referencia de evaluación integral para evaluar y categorizar intentos de replicación de O1 basados en su transparencia técnica y reproducibilidad, (3) Una discusión crítica de las limitaciones y riesgos potenciales de depender demasiado de enfoques de destilación, nuestro análisis culmina en una lección amarga crucial: si bien la búsqueda de sistemas de IA más capaces es importante, el desarrollo de investigadores fundamentados en el pensamiento de primeros principios es primordial.
English
This paper presents a critical examination of current approaches to replicating OpenAI's O1 model capabilities, with particular focus on the widespread but often undisclosed use of knowledge distillation techniques. While our previous work explored the fundamental technical path to O1 replication, this study reveals how simple distillation from O1's API, combined with supervised fine-tuning, can achieve superior performance on complex mathematical reasoning tasks. Through extensive experiments, we show that a base model fine-tuned on simply tens of thousands of samples O1-distilled long-thought chains outperforms O1-preview on the American Invitational Mathematics Examination (AIME) with minimal technical complexity. Moreover, our investigation extends beyond mathematical reasoning to explore the generalization capabilities of O1-distilled models across diverse tasks: hallucination, safety and open-domain QA. Notably, despite training only on mathematical problem-solving data, our models demonstrated strong generalization to open-ended QA tasks and became significantly less susceptible to sycophancy after fine-tuning. We deliberately make this finding public to promote transparency in AI research and to challenge the current trend of obscured technical claims in the field. Our work includes: (1) A detailed technical exposition of the distillation process and its effectiveness, (2) A comprehensive benchmark framework for evaluating and categorizing O1 replication attempts based on their technical transparency and reproducibility, (3) A critical discussion of the limitations and potential risks of over-relying on distillation approaches, our analysis culminates in a crucial bitter lesson: while the pursuit of more capable AI systems is important, the development of researchers grounded in first-principles thinking is paramount.

Summary

AI-Generated Summary

PDF492November 26, 2024