Orca 2: Insegnare ai Modelli Linguistici di Piccole Dimensioni Come Ragionare

Abstract

Orca 1 apprende da segnali ricchi, come tracce di spiegazione, consentendole di superare i modelli convenzionali ottimizzati per istruzioni su benchmark come BigBench Hard e AGIEval. In Orca 2, continuiamo a esplorare come segnali di addestramento migliorati possano potenziare le capacità di ragionamento di modelli linguistici più piccoli. La ricerca sull'addestramento di modelli linguistici di piccole dimensioni si è spesso basata sull'apprendimento per imitazione per replicare l'output di modelli più capaci. Sosteniamo che un'enfasi eccessiva sull'imitazione possa limitare il potenziale dei modelli più piccoli. Cerchiamo di insegnare ai modelli linguistici di piccole dimensioni a impiegare diverse strategie di soluzione per diversi compiti, potenzialmente diverse da quelle utilizzate dal modello più grande. Ad esempio, mentre i modelli più grandi potrebbero fornire una risposta diretta a un compito complesso, i modelli più piccoli potrebbero non avere la stessa capacità. In Orca 2, insegniamo al modello varie tecniche di ragionamento (passo-passo, ricorda poi genera, ricorda-ragiona-genera, risposta diretta, ecc.). Ancora più crucialmente, miriamo ad aiutare il modello a imparare a determinare la strategia di soluzione più efficace per ogni compito. Valutiamo Orca 2 utilizzando un insieme completo di 15 benchmark diversi (corrispondenti a circa 100 compiti e oltre 36.000 prompt unici). Orca 2 supera significativamente modelli di dimensioni simili e raggiunge livelli di prestazioni simili o migliori rispetto a modelli 5-10 volte più grandi, come valutato su compiti complessi che testano capacità di ragionamento avanzato in contesti zero-shot. Rendiamo disponibile Orca 2 come open-source per incoraggiare ulteriori ricerche sullo sviluppo, la valutazione e l'allineamento di modelli linguistici più piccoli.

English

Orca 1 learns from rich signals, such as explanation traces, allowing it to outperform conventional instruction-tuned models on benchmarks like BigBench Hard and AGIEval. In Orca 2, we continue exploring how improved training signals can enhance smaller LMs' reasoning abilities. Research on training small LMs has often relied on imitation learning to replicate the output of more capable models. We contend that excessive emphasis on imitation may restrict the potential of smaller models. We seek to teach small LMs to employ different solution strategies for different tasks, potentially different from the one used by the larger model. For example, while larger models might provide a direct answer to a complex task, smaller models may not have the same capacity. In Orca 2, we teach the model various reasoning techniques (step-by-step, recall then generate, recall-reason-generate, direct answer, etc.). More crucially, we aim to help the model learn to determine the most effective solution strategy for each task. We evaluate Orca 2 using a comprehensive set of 15 diverse benchmarks (corresponding to approximately 100 tasks and over 36,000 unique prompts). Orca 2 significantly surpasses models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings. We open-source Orca 2 to encourage further research on the development, evaluation, and alignment of smaller LMs.

Orca 2: Insegnare ai Modelli Linguistici di Piccole Dimensioni Come Ragionare

Orca 2: Teaching Small Language Models How to Reason

Abstract

Support