Orca 2: Обучение небольших языковых моделей навыкам рассуждения
Orca 2: Teaching Small Language Models How to Reason
November 18, 2023
Авторы: Arindam Mitra, Luciano Del Corro, Shweti Mahajan, Andres Codas, Clarisse Simoes, Sahaj Agrawal, Xuxi Chen, Anastasia Razdaibiedina, Erik Jones, Kriti Aggarwal, Hamid Palangi, Guoqing Zheng, Corby Rosset, Hamed Khanpour, Ahmed Awadallah
cs.AI
Аннотация
Orca 1 обучается на основе богатых сигналов, таких как трассировки объяснений, что позволяет ей превосходить традиционные модели, настроенные на инструкции, на тестах вроде BigBench Hard и AGIEval. В Orca 2 мы продолжаем исследовать, как улучшенные обучающие сигналы могут повысить способности к рассуждению у меньших языковых моделей (LM). Исследования в области обучения небольших LM часто полагались на имитационное обучение для воспроизведения выходных данных более мощных моделей. Мы утверждаем, что чрезмерный акцент на имитацию может ограничить потенциал меньших моделей. Мы стремимся научить небольшие LM использовать различные стратегии решения для разных задач, которые могут отличаться от тех, что применяются более крупными моделями. Например, хотя более крупные модели могут давать прямой ответ на сложную задачу, меньшие модели могут не обладать такой же способностью. В Orca 2 мы обучаем модель различным техникам рассуждения (пошагово, вспомнить и сгенерировать, вспомнить-рассудить-сгенерировать, прямой ответ и т.д.). Что еще важнее, мы стремимся помочь модели научиться определять наиболее эффективную стратегию решения для каждой задачи. Мы оцениваем Orca 2 с использованием комплексного набора из 15 разнообразных тестов (соответствующих примерно 100 задачам и более 36 000 уникальных запросов). Orca 2 значительно превосходит модели аналогичного размера и достигает уровней производительности, схожих или лучших, чем у моделей в 5-10 раз крупнее, что подтверждается на сложных задачах, тестирующих продвинутые способности к рассуждению в условиях zero-shot. Мы открываем исходный код Orca 2, чтобы стимулировать дальнейшие исследования в области разработки, оценки и согласования меньших LM.
English
Orca 1 learns from rich signals, such as explanation traces, allowing it to
outperform conventional instruction-tuned models on benchmarks like BigBench
Hard and AGIEval. In Orca 2, we continue exploring how improved training
signals can enhance smaller LMs' reasoning abilities. Research on training
small LMs has often relied on imitation learning to replicate the output of
more capable models. We contend that excessive emphasis on imitation may
restrict the potential of smaller models. We seek to teach small LMs to employ
different solution strategies for different tasks, potentially different from
the one used by the larger model. For example, while larger models might
provide a direct answer to a complex task, smaller models may not have the same
capacity. In Orca 2, we teach the model various reasoning techniques
(step-by-step, recall then generate, recall-reason-generate, direct answer,
etc.). More crucially, we aim to help the model learn to determine the most
effective solution strategy for each task. We evaluate Orca 2 using a
comprehensive set of 15 diverse benchmarks (corresponding to approximately 100
tasks and over 36,000 unique prompts). Orca 2 significantly surpasses models of
similar size and attains performance levels similar or better to those of
models 5-10x larger, as assessed on complex tasks that test advanced reasoning
abilities in zero-shot settings. We open-source Orca 2 to encourage further
research on the development, evaluation, and alignment of smaller LMs.