AgentInstruct: Op weg naar generatief lesgeven met agentische stromen
AgentInstruct: Toward Generative Teaching with Agentic Flows
July 3, 2024
Auteurs: Arindam Mitra, Luciano Del Corro, Guoqing Zheng, Shweti Mahajan, Dany Rouhana, Andres Codas, Yadong Lu, Wei-ge Chen, Olga Vrousgos, Corby Rosset, Fillipe Silva, Hamed Khanpour, Yash Lara, Ahmed Awadallah
cs.AI
Samenvatting
Synthetische data wordt steeds belangrijker voor het versnellen van de ontwikkeling van taalmodellen, zowel grote als kleine. Ondanks verschillende succesvolle toepassingen, hebben onderzoekers ook zorgen geuit over modelcollaps en de nadelen van het imiteren van andere modellen. Deze tegenstrijdigheid kan worden toegeschreven aan het feit dat synthetische data varieert in kwaliteit en diversiteit. Effectief gebruik van synthetische data vereist meestal aanzienlijke menselijke inspanning bij het cureren van de data. Wij richten ons op het gebruik van synthetische data voor post-training, specifiek het creëren van data door krachtige modellen om een nieuwe vaardigheid of gedrag aan een ander model aan te leren, wat wij Generative Teaching noemen. Wij introduceren AgentInstruct, een uitbreidbaar agent-gebaseerd framework voor het automatisch creëren van grote hoeveelheden diverse en hoogwaardige synthetische data. AgentInstruct kan zowel de prompts als de reacties genereren, waarbij alleen ruwe databronnen zoals tekstdocumenten en codebestanden als uitgangspunt worden gebruikt. Wij demonstreren de bruikbaarheid van AgentInstruct door een post-training dataset van 25M paren te creëren om taalmodellen verschillende vaardigheden aan te leren, zoals tekstbewerking, creatief schrijven, toolgebruik, coderen, leesbegrip, enz. De dataset kan worden gebruikt voor instructie-afstemming van elk basismodel. Wij post-trainen Mistral-7b met de data. Wanneer we het resulterende model Orca-3 vergelijken met Mistral-7b-Instruct (dat hetzelfde basismodel gebruikt), observeren we significante verbeteringen op vele benchmarks. Bijvoorbeeld, 40% verbetering op AGIEval, 19% verbetering op MMLU, 54% verbetering op GSM8K, 38% verbetering op BBH en 45% verbetering op AlpacaEval. Daarnaast presteert het consistent beter dan andere modellen zoals LLAMA-8B-instruct en GPT-3.5-turbo.
English
Synthetic data is becoming increasingly important for accelerating the
development of language models, both large and small. Despite several
successful use cases, researchers also raised concerns around model collapse
and drawbacks of imitating other models. This discrepancy can be attributed to
the fact that synthetic data varies in quality and diversity. Effective use of
synthetic data usually requires significant human effort in curating the data.
We focus on using synthetic data for post-training, specifically creating data
by powerful models to teach a new skill or behavior to another model, we refer
to this setting as Generative Teaching. We introduce AgentInstruct, an
extensible agentic framework for automatically creating large amounts of
diverse and high-quality synthetic data. AgentInstruct can create both the
prompts and responses, using only raw data sources like text documents and code
files as seeds. We demonstrate the utility of AgentInstruct by creating a post
training dataset of 25M pairs to teach language models different skills, such
as text editing, creative writing, tool usage, coding, reading comprehension,
etc. The dataset can be used for instruction tuning of any base model. We
post-train Mistral-7b with the data. When comparing the resulting model Orca-3
to Mistral-7b-Instruct (which uses the same base model), we observe significant
improvements across many benchmarks. For example, 40% improvement on AGIEval,
19% improvement on MMLU, 54% improvement on GSM8K, 38% improvement on BBH and
45% improvement on AlpacaEval. Additionally, it consistently outperforms other
models such as LLAMA-8B-instruct and GPT-3.5-turbo.