Orca: Progressives Lernen aus komplexen Erklärungsspuren von GPT-4
Orca: Progressive Learning from Complex Explanation Traces of GPT-4
June 5, 2023
Autoren: Subhabrata Mukherjee, Arindam Mitra, Ganesh Jawahar, Sahaj Agarwal, Hamid Palangi, Ahmed Awadallah
cs.AI
Zusammenfassung
Aktuelle Forschung konzentriert sich darauf, die Fähigkeiten kleinerer Modelle durch Imitationslernen zu verbessern, indem auf die Ausgaben großer Basismodelle (Large Foundation Models, LFMs) zurückgegriffen wird. Mehrere Faktoren beeinflussen die Qualität dieser Modelle, darunter begrenzte Imitationssignale aus oberflächlichen LFM-Ausgaben, kleinräumige homogene Trainingsdaten und vor allem das Fehlen einer rigorosen Evaluation, was dazu führt, dass die Fähigkeiten der kleinen Modelle überschätzt werden, da sie tendenziell den Stil, nicht jedoch den Denkprozess der LFMs imitieren. Um diese Herausforderungen zu bewältigen, entwickeln wir Orca (wir arbeiten mit unserem rechtlichen Team zusammen, um eine Differenz der Modellgewichte gemäß der Veröffentlichungsrichtlinie von LLaMA öffentlich zugänglich zu machen, die unter https://aka.ms/orca-lm veröffentlicht wird), ein Modell mit 13 Milliarden Parametern, das den Denkprozess der LFMs imitiert. Orca lernt aus umfangreichen Signalen von GPT-4, einschließlich Erklärungsspuren, schrittweisen Denkprozessen und anderen komplexen Anweisungen, die durch Lehrerunterstützung von ChatGPT geleitet werden. Um dieses fortschrittliche Lernen zu fördern, greifen wir auf groß angelegte und vielfältige Imitationsdaten mit sorgfältiger Stichprobenziehung und Auswahl zurück. Orca übertrifft konventionelle, auf Anweisungen abgestimmte State-of-the-Art-Modelle wie Vicuna-13B um mehr als 100 % in komplexen Zero-Shot-Reasoning-Benchmarks wie Big-Bench Hard (BBH) und um 42 % auf AGIEval. Darüber hinaus erreicht Orca Parität mit ChatGPT im BBH-Benchmark und zeigt wettbewerbsfähige Leistungen (4 Punkte Abstand mit optimierter Systemnachricht) in professionellen und akademischen Prüfungen wie SAT, LSAT, GRE und GMAT, sowohl in Zero-Shot-Szenarien ohne Chain-of-Thought (CoT), während es hinter GPT-4 zurückbleibt. Unsere Forschung zeigt, dass das Lernen aus schrittweisen Erklärungen, sei es durch Menschen oder fortschrittlichere KI-Modelle generiert, ein vielversprechender Ansatz ist, um die Fähigkeiten und Fertigkeiten von Modellen zu verbessern.
English
Recent research has focused on enhancing the capability of smaller models
through imitation learning, drawing on the outputs generated by large
foundation models (LFMs). A number of issues impact the quality of these
models, ranging from limited imitation signals from shallow LFM outputs; small
scale homogeneous training data; and most notably a lack of rigorous evaluation
resulting in overestimating the small model's capability as they tend to learn
to imitate the style, but not the reasoning process of LFMs. To address these
challenges, we develop Orca (We are working with our legal team to publicly
release a diff of the model weights in accordance with LLaMA's release policy
to be published at https://aka.ms/orca-lm), a 13-billion parameter model that
learns to imitate the reasoning process of LFMs. Orca learns from rich signals
from GPT-4 including explanation traces; step-by-step thought processes; and
other complex instructions, guided by teacher assistance from ChatGPT. To
promote this progressive learning, we tap into large-scale and diverse
imitation data with judicious sampling and selection. Orca surpasses
conventional state-of-the-art instruction-tuned models such as Vicuna-13B by
more than 100% in complex zero-shot reasoning benchmarks like Big-Bench Hard
(BBH) and 42% on AGIEval. Moreover, Orca reaches parity with ChatGPT on the BBH
benchmark and shows competitive performance (4 pts gap with optimized system
message) in professional and academic examinations like the SAT, LSAT, GRE, and
GMAT, both in zero-shot settings without CoT; while trailing behind GPT-4. Our
research indicates that learning from step-by-step explanations, whether these
are generated by humans or more advanced AI models, is a promising direction to
improve model capabilities and skills.