ChatPaper.aiChatPaper

Jornada de Replicação O1 - Parte 2: Superando O1-preview através de uma Destilação Simples, Grande Progresso ou Lição Amarga?

O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?

November 25, 2024
Autores: Zhen Huang, Haoyang Zou, Xuefeng Li, Yixiu Liu, Yuxiang Zheng, Ethan Chern, Shijie Xia, Yiwei Qin, Weizhe Yuan, Pengfei Liu
cs.AI

Resumo

Este artigo apresenta uma análise crítica das abordagens atuais para replicar as capacidades do modelo O1 da OpenAI, com foco particular no uso difundido, mas frequentemente não divulgado, de técnicas de destilação de conhecimento. Enquanto nosso trabalho anterior explorou o caminho técnico fundamental para replicar o O1, este estudo revela como a simples destilação da API do O1, combinada com ajuste fino supervisionado, pode alcançar um desempenho superior em tarefas complexas de raciocínio matemático. Através de experimentos extensivos, mostramos que um modelo base ajustado fino em simplesmente dezenas de milhares de amostras destiladas do O1 supera as previsões do O1 no Exame de Matemática Invitacional Americana (AIME) com uma complexidade técnica mínima. Além disso, nossa investigação se estende além do raciocínio matemático para explorar as capacidades de generalização dos modelos destilados do O1 em diversas tarefas: alucinação, segurança e QA de domínio aberto. Notavelmente, apesar de treinar apenas em dados de resolução de problemas matemáticos, nossos modelos demonstraram forte capacidade de generalização para tarefas de QA abertas e se tornaram significativamente menos suscetíveis à bajulação após o ajuste fino. Deliberadamente tornamos essa descoberta pública para promover a transparência na pesquisa de IA e desafiar a tendência atual de reivindicações técnicas obscuras no campo. Nosso trabalho inclui: (1) Uma exposição técnica detalhada do processo de destilação e sua eficácia, (2) Um framework abrangente de benchmark para avaliar e categorizar tentativas de replicação do O1 com base em sua transparência técnica e reprodutibilidade, (3) Uma discussão crítica das limitações e riscos potenciais de depender demais de abordagens de destilação, nossa análise culmina em uma lição amarga crucial: enquanto a busca por sistemas de IA mais capazes é importante, o desenvolvimento de pesquisadores fundamentados em pensamento de primeiros princípios é primordial.
English
This paper presents a critical examination of current approaches to replicating OpenAI's O1 model capabilities, with particular focus on the widespread but often undisclosed use of knowledge distillation techniques. While our previous work explored the fundamental technical path to O1 replication, this study reveals how simple distillation from O1's API, combined with supervised fine-tuning, can achieve superior performance on complex mathematical reasoning tasks. Through extensive experiments, we show that a base model fine-tuned on simply tens of thousands of samples O1-distilled long-thought chains outperforms O1-preview on the American Invitational Mathematics Examination (AIME) with minimal technical complexity. Moreover, our investigation extends beyond mathematical reasoning to explore the generalization capabilities of O1-distilled models across diverse tasks: hallucination, safety and open-domain QA. Notably, despite training only on mathematical problem-solving data, our models demonstrated strong generalization to open-ended QA tasks and became significantly less susceptible to sycophancy after fine-tuning. We deliberately make this finding public to promote transparency in AI research and to challenge the current trend of obscured technical claims in the field. Our work includes: (1) A detailed technical exposition of the distillation process and its effectiveness, (2) A comprehensive benchmark framework for evaluating and categorizing O1 replication attempts based on their technical transparency and reproducibility, (3) A critical discussion of the limitations and potential risks of over-relying on distillation approaches, our analysis culminates in a crucial bitter lesson: while the pursuit of more capable AI systems is important, the development of researchers grounded in first-principles thinking is paramount.

Summary

AI-Generated Summary

PDF492November 26, 2024