Orca: Aprendizado Progressivo a partir de Traços Explicativos Complexos do GPT-4
Orca: Progressive Learning from Complex Explanation Traces of GPT-4
June 5, 2023
Autores: Subhabrata Mukherjee, Arindam Mitra, Ganesh Jawahar, Sahaj Agarwal, Hamid Palangi, Ahmed Awadallah
cs.AI
Resumo
Pesquisas recentes têm se concentrado em aprimorar a capacidade de modelos menores por meio de aprendizado por imitação, utilizando as saídas geradas por grandes modelos de base (LFMs). Vários fatores impactam a qualidade desses modelos, desde sinais limitados de imitação provenientes de saídas superficiais de LFMs; dados de treinamento homogêneos e em pequena escala; e, mais notavelmente, a falta de avaliação rigorosa, resultando na superestimação da capacidade dos modelos menores, que tendem a aprender a imitar o estilo, mas não o processo de raciocínio dos LFMs. Para enfrentar esses desafios, desenvolvemos o Orca (estamos trabalhando com nossa equipe jurídica para liberar publicamente um diff dos pesos do modelo de acordo com a política de liberação do LLaMA, a ser publicado em https://aka.ms/orca-lm), um modelo de 13 bilhões de parâmetros que aprende a imitar o processo de raciocínio dos LFMs. O Orca aprende a partir de sinais ricos do GPT-4, incluindo traços de explicação; processos de pensamento passo a passo; e outras instruções complexas, guiado pela assistência do ChatGPT como professor. Para promover esse aprendizado progressivo, utilizamos dados de imitação em grande escala e diversificados, com amostragem e seleção criteriosas. O Orca supera modelos convencionais ajustados por instrução de última geração, como o Vicuna-13B, em mais de 100% em benchmarks complexos de raciocínio zero-shot, como o Big-Bench Hard (BBH), e 42% no AGIEval. Além disso, o Orca alcança paridade com o ChatGPT no benchmark BBH e apresenta desempenho competitivo (4 pontos de diferença com mensagem de sistema otimizada) em exames profissionais e acadêmicos como SAT, LSAT, GRE e GMAT, ambos em configurações zero-shot sem CoT; enquanto fica atrás do GPT-4. Nossa pesquisa indica que aprender a partir de explicações passo a passo, sejam elas geradas por humanos ou por modelos de IA mais avançados, é uma direção promissora para melhorar as capacidades e habilidades dos modelos.
English
Recent research has focused on enhancing the capability of smaller models
through imitation learning, drawing on the outputs generated by large
foundation models (LFMs). A number of issues impact the quality of these
models, ranging from limited imitation signals from shallow LFM outputs; small
scale homogeneous training data; and most notably a lack of rigorous evaluation
resulting in overestimating the small model's capability as they tend to learn
to imitate the style, but not the reasoning process of LFMs. To address these
challenges, we develop Orca (We are working with our legal team to publicly
release a diff of the model weights in accordance with LLaMA's release policy
to be published at https://aka.ms/orca-lm), a 13-billion parameter model that
learns to imitate the reasoning process of LFMs. Orca learns from rich signals
from GPT-4 including explanation traces; step-by-step thought processes; and
other complex instructions, guided by teacher assistance from ChatGPT. To
promote this progressive learning, we tap into large-scale and diverse
imitation data with judicious sampling and selection. Orca surpasses
conventional state-of-the-art instruction-tuned models such as Vicuna-13B by
more than 100% in complex zero-shot reasoning benchmarks like Big-Bench Hard
(BBH) and 42% on AGIEval. Moreover, Orca reaches parity with ChatGPT on the BBH
benchmark and shows competitive performance (4 pts gap with optimized system
message) in professional and academic examinations like the SAT, LSAT, GRE, and
GMAT, both in zero-shot settings without CoT; while trailing behind GPT-4. Our
research indicates that learning from step-by-step explanations, whether these
are generated by humans or more advanced AI models, is a promising direction to
improve model capabilities and skills.