Viaje de Replicación O1 - Parte 2: ¿Superando O1-preview a través de una Destilación Simple, Gran Progreso o Lección Amarga?O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple
Distillation, Big Progress or Bitter Lesson?
Este documento presenta un examen crítico de los enfoques actuales para replicar las capacidades del modelo O1 de OpenAI, con un enfoque particular en el uso generalizado pero a menudo no divulgado de técnicas de destilación de conocimiento. Mientras que nuestro trabajo anterior exploró el camino técnico fundamental para replicar O1, este estudio revela cómo la simple destilación desde la API de O1, combinada con un ajuste fino supervisado, puede lograr un rendimiento superior en tareas complejas de razonamiento matemático. A través de experimentos extensos, demostramos que un modelo base ajustado fino en simplemente decenas de miles de muestras destiladas de O1 supera a O1 en la American Invitational Mathematics Examination (AIME) con una complejidad técnica mínima. Además, nuestra investigación se extiende más allá del razonamiento matemático para explorar las capacidades de generalización de los modelos destilados de O1 en diversas tareas: alucinación, seguridad y preguntas y respuestas de dominio abierto. Es notable que, a pesar de entrenar solo con datos de resolución de problemas matemáticos, nuestros modelos demostraron una fuerte capacidad de generalización a tareas de preguntas y respuestas abiertas y se volvieron significativamente menos susceptibles a la adulación después del ajuste fino. Deliberadamente hacemos este hallazgo público para promover la transparencia en la investigación de IA y desafiar la tendencia actual de afirmaciones técnicas oscurecidas en el campo. Nuestro trabajo incluye: (1) Una exposición técnica detallada del proceso de destilación y su efectividad, (2) Un marco de referencia de evaluación integral para evaluar y categorizar intentos de replicación de O1 basados en su transparencia técnica y reproducibilidad, (3) Una discusión crítica de las limitaciones y riesgos potenciales de depender demasiado de enfoques de destilación, nuestro análisis culmina en una lección amarga crucial: si bien la búsqueda de sistemas de IA más capaces es importante, el desarrollo de investigadores fundamentados en el pensamiento de primeros principios es primordial.