Orca 2 : Apprendre aux petits modèles de langage à raisonner
Orca 2: Teaching Small Language Models How to Reason
November 18, 2023
Auteurs: Arindam Mitra, Luciano Del Corro, Shweti Mahajan, Andres Codas, Clarisse Simoes, Sahaj Agrawal, Xuxi Chen, Anastasia Razdaibiedina, Erik Jones, Kriti Aggarwal, Hamid Palangi, Guoqing Zheng, Corby Rosset, Hamed Khanpour, Ahmed Awadallah
cs.AI
Résumé
Orca 1 apprend à partir de signaux riches, tels que des traces d'explication, ce qui lui permet de surpasser les modèles conventionnels ajustés par instruction sur des benchmarks comme BigBench Hard et AGIEval. Dans Orca 2, nous continuons d'explorer comment des signaux d'entraînement améliorés peuvent renforcer les capacités de raisonnement des petits modèles de langage (LM). La recherche sur l'entraînement des petits LM s'est souvent appuyée sur l'apprentissage par imitation pour reproduire les sorties de modèles plus performants. Nous soutenons qu'un accent excessif sur l'imitation peut limiter le potentiel des modèles plus petits. Nous cherchons à enseigner aux petits LM à employer différentes stratégies de résolution pour différentes tâches, potentiellement différentes de celles utilisées par le modèle plus grand. Par exemple, alors que les modèles plus grands pourraient fournir une réponse directe à une tâche complexe, les modèles plus petits pourraient ne pas avoir la même capacité. Dans Orca 2, nous enseignons au modèle diverses techniques de raisonnement (étape par étape, rappel puis génération, rappel-raisonnement-génération, réponse directe, etc.). Plus crucialement, nous visons à aider le modèle à apprendre à déterminer la stratégie de solution la plus efficace pour chaque tâche. Nous évaluons Orca 2 à l'aide d'un ensemble complet de 15 benchmarks divers (correspondant à environ 100 tâches et plus de 36 000 prompts uniques). Orca 2 surpasse significativement les modèles de taille similaire et atteint des niveaux de performance similaires ou supérieurs à ceux de modèles 5 à 10 fois plus grands, évalués sur des tâches complexes testant les capacités de raisonnement avancé dans des configurations zero-shot. Nous rendons Orca 2 open-source pour encourager davantage de recherches sur le développement, l'évaluation et l'alignement des petits LM.
English
Orca 1 learns from rich signals, such as explanation traces, allowing it to
outperform conventional instruction-tuned models on benchmarks like BigBench
Hard and AGIEval. In Orca 2, we continue exploring how improved training
signals can enhance smaller LMs' reasoning abilities. Research on training
small LMs has often relied on imitation learning to replicate the output of
more capable models. We contend that excessive emphasis on imitation may
restrict the potential of smaller models. We seek to teach small LMs to employ
different solution strategies for different tasks, potentially different from
the one used by the larger model. For example, while larger models might
provide a direct answer to a complex task, smaller models may not have the same
capacity. In Orca 2, we teach the model various reasoning techniques
(step-by-step, recall then generate, recall-reason-generate, direct answer,
etc.). More crucially, we aim to help the model learn to determine the most
effective solution strategy for each task. We evaluate Orca 2 using a
comprehensive set of 15 diverse benchmarks (corresponding to approximately 100
tasks and over 36,000 unique prompts). Orca 2 significantly surpasses models of
similar size and attains performance levels similar or better to those of
models 5-10x larger, as assessed on complex tasks that test advanced reasoning
abilities in zero-shot settings. We open-source Orca 2 to encourage further
research on the development, evaluation, and alignment of smaller LMs.