ChatPaper.aiChatPaper

Orca: Apprendimento progressivo da tracce esplicative complesse di GPT-4

Orca: Progressive Learning from Complex Explanation Traces of GPT-4

June 5, 2023
Autori: Subhabrata Mukherjee, Arindam Mitra, Ganesh Jawahar, Sahaj Agarwal, Hamid Palangi, Ahmed Awadallah
cs.AI

Abstract

Le ricerche recenti si sono concentrate sul potenziamento delle capacità dei modelli più piccoli attraverso l'apprendimento per imitazione, basandosi sugli output generati dai grandi modelli di base (LFMs). Diversi fattori influenzano la qualità di questi modelli, tra cui segnali di imitazione limitati provenienti da output superficiali degli LFMs; dati di addestramento omogenei e su piccola scala; e, soprattutto, una mancanza di valutazione rigorosa che porta a sovrastimare le capacità del modello piccolo, poiché tende a imparare a imitare lo stile, ma non il processo di ragionamento degli LFMs. Per affrontare queste sfide, abbiamo sviluppato Orca (stiamo lavorando con il nostro team legale per rilasciare pubblicamente un diff dei pesi del modello in conformità con la politica di rilascio di LLaMA, che sarà pubblicato su https://aka.ms/orca-lm), un modello da 13 miliardi di parametri che impara a imitare il processo di ragionamento degli LFMs. Orca apprende da segnali ricchi provenienti da GPT-4, inclusi tracciati di spiegazione; processi di pensiero passo-passo; e altre istruzioni complesse, guidato dall'assistenza di ChatGPT. Per promuovere questo apprendimento progressivo, attingiamo a dati di imitazione su larga scala e diversificati con campionamento e selezione accurati. Orca supera i modelli convenzionali all'avanguardia sintonizzati su istruzioni, come Vicuna-13B, di oltre il 100% in benchmark complessi di ragionamento zero-shot come Big-Bench Hard (BBH) e del 42% su AGIEval. Inoltre, Orca raggiunge la parità con ChatGPT nel benchmark BBH e mostra prestazioni competitive (4 punti di differenza con messaggio di sistema ottimizzato) in esami professionali e accademici come SAT, LSAT, GRE e GMAT, sia in contesti zero-shot senza CoT; pur rimanendo indietro rispetto a GPT-4. La nostra ricerca indica che apprendere da spiegazioni passo-passo, siano esse generate da esseri umani o da modelli di IA più avanzati, è una direzione promettente per migliorare le capacità e le competenze dei modelli.
English
Recent research has focused on enhancing the capability of smaller models through imitation learning, drawing on the outputs generated by large foundation models (LFMs). A number of issues impact the quality of these models, ranging from limited imitation signals from shallow LFM outputs; small scale homogeneous training data; and most notably a lack of rigorous evaluation resulting in overestimating the small model's capability as they tend to learn to imitate the style, but not the reasoning process of LFMs. To address these challenges, we develop Orca (We are working with our legal team to publicly release a diff of the model weights in accordance with LLaMA's release policy to be published at https://aka.ms/orca-lm), a 13-billion parameter model that learns to imitate the reasoning process of LFMs. Orca learns from rich signals from GPT-4 including explanation traces; step-by-step thought processes; and other complex instructions, guided by teacher assistance from ChatGPT. To promote this progressive learning, we tap into large-scale and diverse imitation data with judicious sampling and selection. Orca surpasses conventional state-of-the-art instruction-tuned models such as Vicuna-13B by more than 100% in complex zero-shot reasoning benchmarks like Big-Bench Hard (BBH) and 42% on AGIEval. Moreover, Orca reaches parity with ChatGPT on the BBH benchmark and shows competitive performance (4 pts gap with optimized system message) in professional and academic examinations like the SAT, LSAT, GRE, and GMAT, both in zero-shot settings without CoT; while trailing behind GPT-4. Our research indicates that learning from step-by-step explanations, whether these are generated by humans or more advanced AI models, is a promising direction to improve model capabilities and skills.
PDF5118March 25, 2026