Orca: Прогрессивное обучение на основе сложных трасс объяснений GPT-4
Orca: Progressive Learning from Complex Explanation Traces of GPT-4
June 5, 2023
Авторы: Subhabrata Mukherjee, Arindam Mitra, Ganesh Jawahar, Sahaj Agarwal, Hamid Palangi, Ahmed Awadallah
cs.AI
Аннотация
Последние исследования сосредоточены на повышении возможностей небольших моделей с использованием обучения через имитацию, опираясь на результаты, генерируемые крупными базовыми моделями (Large Foundation Models, LFMs). На качество этих моделей влияет ряд факторов, включая ограниченные сигналы имитации из поверхностных выходных данных LFMs; небольшой объем однородных обучающих данных; и, что наиболее важно, отсутствие строгой оценки, что приводит к завышению возможностей небольших моделей, поскольку они склонны имитировать стиль, но не процесс рассуждений LFMs. Для решения этих проблем мы разработали Orca (мы работаем с нашей юридической командой, чтобы публично выпустить разницу в весах модели в соответствии с политикой выпуска LLaMA, которая будет опубликована на https://aka.ms/orca-lm), модель с 13 миллиардами параметров, которая учится имитировать процесс рассуждений LFMs. Orca обучается на богатых сигналах от GPT-4, включая трассировки объяснений; пошаговые мыслительные процессы; и другие сложные инструкции, направляемые помощью учителя от ChatGPT. Для поддержки этого прогрессивного обучения мы используем крупномасштабные и разнообразные данные имитации с тщательным выбором и отбором. Orca превосходит традиционные современные модели, настроенные на инструкции, такие как Vicuna-13B, более чем на 100% в сложных тестах на рассуждение без предварительного обучения (zero-shot), таких как Big-Bench Hard (BBH), и на 42% на AGIEval. Более того, Orca достигает паритета с ChatGPT на тесте BBH и демонстрирует конкурентоспособные результаты (разрыв в 4 балла с оптимизированным системным сообщением) в профессиональных и академических экзаменах, таких как SAT, LSAT, GRE и GMAT, как в условиях zero-shot без использования цепочек рассуждений (CoT), так и отставая от GPT-4. Наше исследование показывает, что обучение на основе пошаговых объяснений, будь они созданы людьми или более продвинутыми моделями ИИ, является перспективным направлением для улучшения возможностей и навыков моделей.
English
Recent research has focused on enhancing the capability of smaller models
through imitation learning, drawing on the outputs generated by large
foundation models (LFMs). A number of issues impact the quality of these
models, ranging from limited imitation signals from shallow LFM outputs; small
scale homogeneous training data; and most notably a lack of rigorous evaluation
resulting in overestimating the small model's capability as they tend to learn
to imitate the style, but not the reasoning process of LFMs. To address these
challenges, we develop Orca (We are working with our legal team to publicly
release a diff of the model weights in accordance with LLaMA's release policy
to be published at https://aka.ms/orca-lm), a 13-billion parameter model that
learns to imitate the reasoning process of LFMs. Orca learns from rich signals
from GPT-4 including explanation traces; step-by-step thought processes; and
other complex instructions, guided by teacher assistance from ChatGPT. To
promote this progressive learning, we tap into large-scale and diverse
imitation data with judicious sampling and selection. Orca surpasses
conventional state-of-the-art instruction-tuned models such as Vicuna-13B by
more than 100% in complex zero-shot reasoning benchmarks like Big-Bench Hard
(BBH) and 42% on AGIEval. Moreover, Orca reaches parity with ChatGPT on the BBH
benchmark and shows competitive performance (4 pts gap with optimized system
message) in professional and academic examinations like the SAT, LSAT, GRE, and
GMAT, both in zero-shot settings without CoT; while trailing behind GPT-4. Our
research indicates that learning from step-by-step explanations, whether these
are generated by humans or more advanced AI models, is a promising direction to
improve model capabilities and skills.