Orca 2: Insegnare ai Modelli Linguistici di Piccole Dimensioni Come Ragionare
Orca 2: Teaching Small Language Models How to Reason
November 18, 2023
Autori: Arindam Mitra, Luciano Del Corro, Shweti Mahajan, Andres Codas, Clarisse Simoes, Sahaj Agrawal, Xuxi Chen, Anastasia Razdaibiedina, Erik Jones, Kriti Aggarwal, Hamid Palangi, Guoqing Zheng, Corby Rosset, Hamed Khanpour, Ahmed Awadallah
cs.AI
Abstract
Orca 1 apprende da segnali ricchi, come tracce di spiegazione, consentendole di superare i modelli convenzionali ottimizzati per istruzioni su benchmark come BigBench Hard e AGIEval. In Orca 2, continuiamo a esplorare come segnali di addestramento migliorati possano potenziare le capacità di ragionamento di modelli linguistici più piccoli. La ricerca sull'addestramento di modelli linguistici di piccole dimensioni si è spesso basata sull'apprendimento per imitazione per replicare l'output di modelli più capaci. Sosteniamo che un'enfasi eccessiva sull'imitazione possa limitare il potenziale dei modelli più piccoli. Cerchiamo di insegnare ai modelli linguistici di piccole dimensioni a impiegare diverse strategie di soluzione per diversi compiti, potenzialmente diverse da quelle utilizzate dal modello più grande. Ad esempio, mentre i modelli più grandi potrebbero fornire una risposta diretta a un compito complesso, i modelli più piccoli potrebbero non avere la stessa capacità. In Orca 2, insegniamo al modello varie tecniche di ragionamento (passo-passo, ricorda poi genera, ricorda-ragiona-genera, risposta diretta, ecc.). Ancora più crucialmente, miriamo ad aiutare il modello a imparare a determinare la strategia di soluzione più efficace per ogni compito. Valutiamo Orca 2 utilizzando un insieme completo di 15 benchmark diversi (corrispondenti a circa 100 compiti e oltre 36.000 prompt unici). Orca 2 supera significativamente modelli di dimensioni simili e raggiunge livelli di prestazioni simili o migliori rispetto a modelli 5-10 volte più grandi, come valutato su compiti complessi che testano capacità di ragionamento avanzato in contesti zero-shot. Rendiamo disponibile Orca 2 come open-source per incoraggiare ulteriori ricerche sullo sviluppo, la valutazione e l'allineamento di modelli linguistici più piccoli.
English
Orca 1 learns from rich signals, such as explanation traces, allowing it to
outperform conventional instruction-tuned models on benchmarks like BigBench
Hard and AGIEval. In Orca 2, we continue exploring how improved training
signals can enhance smaller LMs' reasoning abilities. Research on training
small LMs has often relied on imitation learning to replicate the output of
more capable models. We contend that excessive emphasis on imitation may
restrict the potential of smaller models. We seek to teach small LMs to employ
different solution strategies for different tasks, potentially different from
the one used by the larger model. For example, while larger models might
provide a direct answer to a complex task, smaller models may not have the same
capacity. In Orca 2, we teach the model various reasoning techniques
(step-by-step, recall then generate, recall-reason-generate, direct answer,
etc.). More crucially, we aim to help the model learn to determine the most
effective solution strategy for each task. We evaluate Orca 2 using a
comprehensive set of 15 diverse benchmarks (corresponding to approximately 100
tasks and over 36,000 unique prompts). Orca 2 significantly surpasses models of
similar size and attains performance levels similar or better to those of
models 5-10x larger, as assessed on complex tasks that test advanced reasoning
abilities in zero-shot settings. We open-source Orca 2 to encourage further
research on the development, evaluation, and alignment of smaller LMs.