Orca: Progressief Leren van Complexe Uitlegsporen van GPT-4
Orca: Progressive Learning from Complex Explanation Traces of GPT-4
June 5, 2023
Auteurs: Subhabrata Mukherjee, Arindam Mitra, Ganesh Jawahar, Sahaj Agarwal, Hamid Palangi, Ahmed Awadallah
cs.AI
Samenvatting
Recent onderzoek heeft zich gericht op het verbeteren van de capaciteiten van kleinere modellen door middel van imitatieleren, waarbij gebruik wordt gemaakt van de uitvoer gegenereerd door grote foundationmodellen (LFMs). Een aantal problemen beïnvloedt de kwaliteit van deze modellen, variërend van beperkte imitatiesignalen door oppervlakkige LFM-uitvoer; kleinschalige homogene trainingsdata; en vooral een gebrek aan rigoureuze evaluatie, wat leidt tot een overschatting van de capaciteiten van het kleine model, aangezien deze vaak de stijl imiteren, maar niet het redeneerproces van LFMs. Om deze uitdagingen aan te pakken, ontwikkelen we Orca (we werken samen met ons juridisch team om een diff van de modelgewichten openbaar te maken in overeenstemming met het vrijgavebeleid van LLaMA, te publiceren op https://aka.ms/orca-lm), een model met 13 miljard parameters dat leert om het redeneerproces van LFMs te imiteren. Orca leert van rijke signalen van GPT-4, waaronder uitlegtrajecten; stapsgewijze denkprocessen; en andere complexe instructies, begeleid door leraarondersteuning van ChatGPT. Om dit progressieve leren te bevorderen, maken we gebruik van grootschalige en diverse imitatiedata met zorgvuldige steekproefname en selectie. Orca overtreft conventionele state-of-the-art instructie-afgestemde modellen zoals Vicuna-13B met meer dan 100% in complexe zero-shot redeneerbenchmarks zoals Big-Bench Hard (BBH) en 42% op AGIEval. Bovendien bereikt Orca pariteit met ChatGPT op de BBH-benchmark en laat het competitieve prestaties zien (4 punten verschil met een geoptimaliseerd systeembericht) in professionele en academische examens zoals de SAT, LSAT, GRE en GMAT, zowel in zero-shot instellingen zonder CoT; terwijl het achterblijft bij GPT-4. Ons onderzoek geeft aan dat leren van stapsgewijze uitleg, of deze nu gegenereerd worden door mensen of meer geavanceerde AI-modellen, een veelbelovende richting is om modelcapaciteiten en -vaardigheden te verbeteren.
English
Recent research has focused on enhancing the capability of smaller models
through imitation learning, drawing on the outputs generated by large
foundation models (LFMs). A number of issues impact the quality of these
models, ranging from limited imitation signals from shallow LFM outputs; small
scale homogeneous training data; and most notably a lack of rigorous evaluation
resulting in overestimating the small model's capability as they tend to learn
to imitate the style, but not the reasoning process of LFMs. To address these
challenges, we develop Orca (We are working with our legal team to publicly
release a diff of the model weights in accordance with LLaMA's release policy
to be published at https://aka.ms/orca-lm), a 13-billion parameter model that
learns to imitate the reasoning process of LFMs. Orca learns from rich signals
from GPT-4 including explanation traces; step-by-step thought processes; and
other complex instructions, guided by teacher assistance from ChatGPT. To
promote this progressive learning, we tap into large-scale and diverse
imitation data with judicious sampling and selection. Orca surpasses
conventional state-of-the-art instruction-tuned models such as Vicuna-13B by
more than 100% in complex zero-shot reasoning benchmarks like Big-Bench Hard
(BBH) and 42% on AGIEval. Moreover, Orca reaches parity with ChatGPT on the BBH
benchmark and shows competitive performance (4 pts gap with optimized system
message) in professional and academic examinations like the SAT, LSAT, GRE, and
GMAT, both in zero-shot settings without CoT; while trailing behind GPT-4. Our
research indicates that learning from step-by-step explanations, whether these
are generated by humans or more advanced AI models, is a promising direction to
improve model capabilities and skills.