Orca 2: Kleine Taalmodellen Leren Redeneren
Orca 2: Teaching Small Language Models How to Reason
November 18, 2023
Auteurs: Arindam Mitra, Luciano Del Corro, Shweti Mahajan, Andres Codas, Clarisse Simoes, Sahaj Agrawal, Xuxi Chen, Anastasia Razdaibiedina, Erik Jones, Kriti Aggarwal, Hamid Palangi, Guoqing Zheng, Corby Rosset, Hamed Khanpour, Ahmed Awadallah
cs.AI
Samenvatting
Orca 1 leert van rijke signalen, zoals uitlegtraces, waardoor het conventionele instructie-afgestemde modellen overtreft op benchmarks zoals BigBench Hard en AGIEval. In Orca 2 blijven we onderzoeken hoe verbeterde trainingssignalen de redeneervaardigheden van kleinere taalmodelen kunnen versterken. Onderzoek naar het trainen van kleine taalmodelen heeft vaak vertrouwd op imitatieleren om de output van krachtigere modellen te repliceren. Wij stellen dat een overmatige nadruk op imitatie het potentieel van kleinere modellen kan beperken. Wij streven ernaar om kleine taalmodelen te leren verschillende oplossingsstrategieën te gebruiken voor verschillende taken, mogelijk afwijkend van de strategie die door het grotere model wordt gebruikt. Terwijl grotere modellen bijvoorbeeld een direct antwoord kunnen geven op een complexe taak, hebben kleinere modellen mogelijk niet dezelfde capaciteit. In Orca 2 leren we het model diverse redeneertechnieken aan (stapsgewijs, eerst herinneren dan genereren, herinneren-redeneren-genereren, direct antwoord, enz.). Cruciaal is dat we het model willen helpen leren de meest effectieve oplossingsstrategie voor elke taak te bepalen. We evalueren Orca 2 met behulp van een uitgebreide set van 15 diverse benchmarks (overeenkomend met ongeveer 100 taken en meer dan 36.000 unieke prompts). Orca 2 overtreft aanzienlijk modellen van vergelijkbare grootte en bereikt prestatieniveaus die vergelijkbaar of beter zijn dan die van modellen die 5-10 keer groter zijn, zoals beoordeeld op complexe taken die geavanceerde redeneervaardigheden testen in zero-shot settings. We maken Orca 2 open source om verder onderzoek te stimuleren naar de ontwikkeling, evaluatie en afstemming van kleinere taalmodelen.
English
Orca 1 learns from rich signals, such as explanation traces, allowing it to
outperform conventional instruction-tuned models on benchmarks like BigBench
Hard and AGIEval. In Orca 2, we continue exploring how improved training
signals can enhance smaller LMs' reasoning abilities. Research on training
small LMs has often relied on imitation learning to replicate the output of
more capable models. We contend that excessive emphasis on imitation may
restrict the potential of smaller models. We seek to teach small LMs to employ
different solution strategies for different tasks, potentially different from
the one used by the larger model. For example, while larger models might
provide a direct answer to a complex task, smaller models may not have the same
capacity. In Orca 2, we teach the model various reasoning techniques
(step-by-step, recall then generate, recall-reason-generate, direct answer,
etc.). More crucially, we aim to help the model learn to determine the most
effective solution strategy for each task. We evaluate Orca 2 using a
comprehensive set of 15 diverse benchmarks (corresponding to approximately 100
tasks and over 36,000 unique prompts). Orca 2 significantly surpasses models of
similar size and attains performance levels similar or better to those of
models 5-10x larger, as assessed on complex tasks that test advanced reasoning
abilities in zero-shot settings. We open-source Orca 2 to encourage further
research on the development, evaluation, and alignment of smaller LMs.