Orca: Aprendizado Progressivo a partir de Traços Explicativos Complexos do GPT-4

Resumo

Pesquisas recentes têm se concentrado em aprimorar a capacidade de modelos menores por meio de aprendizado por imitação, utilizando as saídas geradas por grandes modelos de base (LFMs). Vários fatores impactam a qualidade desses modelos, desde sinais limitados de imitação provenientes de saídas superficiais de LFMs; dados de treinamento homogêneos e em pequena escala; e, mais notavelmente, a falta de avaliação rigorosa, resultando na superestimação da capacidade dos modelos menores, que tendem a aprender a imitar o estilo, mas não o processo de raciocínio dos LFMs. Para enfrentar esses desafios, desenvolvemos o Orca (estamos trabalhando com nossa equipe jurídica para liberar publicamente um diff dos pesos do modelo de acordo com a política de liberação do LLaMA, a ser publicado em https://aka.ms/orca-lm), um modelo de 13 bilhões de parâmetros que aprende a imitar o processo de raciocínio dos LFMs. O Orca aprende a partir de sinais ricos do GPT-4, incluindo traços de explicação; processos de pensamento passo a passo; e outras instruções complexas, guiado pela assistência do ChatGPT como professor. Para promover esse aprendizado progressivo, utilizamos dados de imitação em grande escala e diversificados, com amostragem e seleção criteriosas. O Orca supera modelos convencionais ajustados por instrução de última geração, como o Vicuna-13B, em mais de 100% em benchmarks complexos de raciocínio zero-shot, como o Big-Bench Hard (BBH), e 42% no AGIEval. Além disso, o Orca alcança paridade com o ChatGPT no benchmark BBH e apresenta desempenho competitivo (4 pontos de diferença com mensagem de sistema otimizada) em exames profissionais e acadêmicos como SAT, LSAT, GRE e GMAT, ambos em configurações zero-shot sem CoT; enquanto fica atrás do GPT-4. Nossa pesquisa indica que aprender a partir de explicações passo a passo, sejam elas geradas por humanos ou por modelos de IA mais avançados, é uma direção promissora para melhorar as capacidades e habilidades dos modelos.

English

Recent research has focused on enhancing the capability of smaller models through imitation learning, drawing on the outputs generated by large foundation models (LFMs). A number of issues impact the quality of these models, ranging from limited imitation signals from shallow LFM outputs; small scale homogeneous training data; and most notably a lack of rigorous evaluation resulting in overestimating the small model's capability as they tend to learn to imitate the style, but not the reasoning process of LFMs. To address these challenges, we develop Orca (We are working with our legal team to publicly release a diff of the model weights in accordance with LLaMA's release policy to be published at https://aka.ms/orca-lm), a 13-billion parameter model that learns to imitate the reasoning process of LFMs. Orca learns from rich signals from GPT-4 including explanation traces; step-by-step thought processes; and other complex instructions, guided by teacher assistance from ChatGPT. To promote this progressive learning, we tap into large-scale and diverse imitation data with judicious sampling and selection. Orca surpasses conventional state-of-the-art instruction-tuned models such as Vicuna-13B by more than 100% in complex zero-shot reasoning benchmarks like Big-Bench Hard (BBH) and 42% on AGIEval. Moreover, Orca reaches parity with ChatGPT on the BBH benchmark and shows competitive performance (4 pts gap with optimized system message) in professional and academic examinations like the SAT, LSAT, GRE, and GMAT, both in zero-shot settings without CoT; while trailing behind GPT-4. Our research indicates that learning from step-by-step explanations, whether these are generated by humans or more advanced AI models, is a promising direction to improve model capabilities and skills.

Orca: Aprendizado Progressivo a partir de Traços Explicativos Complexos do GPT-4

Orca: Progressive Learning from Complex Explanation Traces of GPT-4

Resumo

Support