АгентИнструкт: К обучению с генеративными агентными потоками
AgentInstruct: Toward Generative Teaching with Agentic Flows
July 3, 2024
Авторы: Arindam Mitra, Luciano Del Corro, Guoqing Zheng, Shweti Mahajan, Dany Rouhana, Andres Codas, Yadong Lu, Wei-ge Chen, Olga Vrousgos, Corby Rosset, Fillipe Silva, Hamed Khanpour, Yash Lara, Ahmed Awadallah
cs.AI
Аннотация
Синтетические данные становятся все более важными для ускорения разработки языковых моделей, как крупных, так и небольших. Несмотря на несколько успешных примеров использования, исследователи также высказали опасения относительно коллапса модели и недостатков имитации других моделей. Это расхождение можно объяснить тем, что синтетические данные различаются по качеству и разнообразию. Эффективное использование синтетических данных обычно требует значительных усилий со стороны человека по курированию данных. Мы сосредотачиваемся на использовании синтетических данных для пост-тренировки, конкретно создании данных мощными моделями для обучения нового навыка или поведения другой модели, и называем эту ситуацию Генеративным Обучением. Мы представляем AgentInstruct, расширяемую агентную платформу для автоматического создания больших объемов разнообразных и высококачественных синтетических данных. AgentInstruct может создавать как подсказки, так и ответы, используя только исходные данные, такие как текстовые документы и файлы с кодом, в качестве исходных данных. Мы демонстрируем полезность AgentInstruct, создав пост-тренировочный набор данных из 25 миллионов пар для обучения языковых моделей различным навыкам, таким как редактирование текста, творческое письмо, использование инструментов, программирование, понимание прочитанного и т. д. Этот набор данных может быть использован для настройки инструкций любой базовой модели. Мы проводим пост-тренировку Mistral-7b с использованием этих данных. При сравнении полученной модели Orca-3 с Mistral-7b-Instruct (которая использует ту же базовую модель), мы наблюдаем значительные улучшения по многим критериям. Например, улучшение на 40% в AGIEval, на 19% в MMLU, на 54% в GSM8K, на 38% в BBH и на 45% в AlpacaEval. Кроме того, он последовательно превосходит другие модели, такие как LLAMA-8B-instruct и GPT-3.5-turbo.
English
Synthetic data is becoming increasingly important for accelerating the
development of language models, both large and small. Despite several
successful use cases, researchers also raised concerns around model collapse
and drawbacks of imitating other models. This discrepancy can be attributed to
the fact that synthetic data varies in quality and diversity. Effective use of
synthetic data usually requires significant human effort in curating the data.
We focus on using synthetic data for post-training, specifically creating data
by powerful models to teach a new skill or behavior to another model, we refer
to this setting as Generative Teaching. We introduce AgentInstruct, an
extensible agentic framework for automatically creating large amounts of
diverse and high-quality synthetic data. AgentInstruct can create both the
prompts and responses, using only raw data sources like text documents and code
files as seeds. We demonstrate the utility of AgentInstruct by creating a post
training dataset of 25M pairs to teach language models different skills, such
as text editing, creative writing, tool usage, coding, reading comprehension,
etc. The dataset can be used for instruction tuning of any base model. We
post-train Mistral-7b with the data. When comparing the resulting model Orca-3
to Mistral-7b-Instruct (which uses the same base model), we observe significant
improvements across many benchmarks. For example, 40% improvement on AGIEval,
19% improvement on MMLU, 54% improvement on GSM8K, 38% improvement on BBH and
45% improvement on AlpacaEval. Additionally, it consistently outperforms other
models such as LLAMA-8B-instruct and GPT-3.5-turbo.Summary
AI-Generated Summary