Orca : Apprentissage progressif à partir de traces d'explications complexes de GPT-4
Orca: Progressive Learning from Complex Explanation Traces of GPT-4
June 5, 2023
Auteurs: Subhabrata Mukherjee, Arindam Mitra, Ganesh Jawahar, Sahaj Agarwal, Hamid Palangi, Ahmed Awadallah
cs.AI
Résumé
Les recherches récentes se sont concentrées sur l'amélioration des capacités des modèles de plus petite taille grâce à l'apprentissage par imitation, en s'appuyant sur les sorties générées par les grands modèles de fondation (LFMs). Plusieurs problèmes affectent la qualité de ces modèles, allant des signaux d'imitation limités provenant des sorties superficielles des LFMs ; des données d'entraînement homogènes et à petite échelle ; et surtout un manque d'évaluation rigoureuse conduisant à surestimer les capacités des petits modèles, car ils ont tendance à imiter le style plutôt que le processus de raisonnement des LFMs. Pour relever ces défis, nous avons développé Orca (nous travaillons avec notre équipe juridique pour publier une diff des poids du modèle conformément à la politique de publication de LLaMA, à paraître sur https://aka.ms/orca-lm), un modèle de 13 milliards de paramètres qui apprend à imiter le processus de raisonnement des LFMs. Orca apprend à partir de signaux riches provenant de GPT-4, incluant des traces d'explication ; des processus de pensée étape par étape ; et d'autres instructions complexes, guidé par l'assistance pédagogique de ChatGPT. Pour favoriser cet apprentissage progressif, nous exploitons des données d'imitation à grande échelle et diversifiées avec un échantillonnage et une sélection judicieux. Orca surpasse les modèles conventionnels de pointe ajustés par instruction, tels que Vicuna-13B, de plus de 100 % dans des benchmarks de raisonnement zero-shot complexes comme Big-Bench Hard (BBH) et de 42 % sur AGIEval. De plus, Orca atteint la parité avec ChatGPT sur le benchmark BBH et montre des performances compétitives (un écart de 4 points avec un message système optimisé) dans des examens professionnels et académiques comme le SAT, le LSAT, le GRE et le GMAT, à la fois dans des configurations zero-shot sans CoT ; tout en restant derrière GPT-4. Nos recherches indiquent que l'apprentissage à partir d'explications étape par étape, qu'elles soient générées par des humains ou par des modèles d'IA plus avancés, est une direction prometteuse pour améliorer les capacités et les compétences des modèles.
English
Recent research has focused on enhancing the capability of smaller models
through imitation learning, drawing on the outputs generated by large
foundation models (LFMs). A number of issues impact the quality of these
models, ranging from limited imitation signals from shallow LFM outputs; small
scale homogeneous training data; and most notably a lack of rigorous evaluation
resulting in overestimating the small model's capability as they tend to learn
to imitate the style, but not the reasoning process of LFMs. To address these
challenges, we develop Orca (We are working with our legal team to publicly
release a diff of the model weights in accordance with LLaMA's release policy
to be published at https://aka.ms/orca-lm), a 13-billion parameter model that
learns to imitate the reasoning process of LFMs. Orca learns from rich signals
from GPT-4 including explanation traces; step-by-step thought processes; and
other complex instructions, guided by teacher assistance from ChatGPT. To
promote this progressive learning, we tap into large-scale and diverse
imitation data with judicious sampling and selection. Orca surpasses
conventional state-of-the-art instruction-tuned models such as Vicuna-13B by
more than 100% in complex zero-shot reasoning benchmarks like Big-Bench Hard
(BBH) and 42% on AGIEval. Moreover, Orca reaches parity with ChatGPT on the BBH
benchmark and shows competitive performance (4 pts gap with optimized system
message) in professional and academic examinations like the SAT, LSAT, GRE, and
GMAT, both in zero-shot settings without CoT; while trailing behind GPT-4. Our
research indicates that learning from step-by-step explanations, whether these
are generated by humans or more advanced AI models, is a promising direction to
improve model capabilities and skills.