AgentInstruct : Vers un enseignement génératif avec des flux agentiques
AgentInstruct: Toward Generative Teaching with Agentic Flows
July 3, 2024
Auteurs: Arindam Mitra, Luciano Del Corro, Guoqing Zheng, Shweti Mahajan, Dany Rouhana, Andres Codas, Yadong Lu, Wei-ge Chen, Olga Vrousgos, Corby Rosset, Fillipe Silva, Hamed Khanpour, Yash Lara, Ahmed Awadallah
cs.AI
Résumé
Les données synthétiques prennent une importance croissante pour accélérer le développement des modèles de langage, qu'ils soient de grande ou de petite taille. Malgré plusieurs cas d'utilisation réussis, les chercheurs ont également soulevé des préoccupations concernant l'effondrement des modèles et les inconvénients de l'imitation d'autres modèles. Cette divergence peut être attribuée au fait que les données synthétiques varient en qualité et en diversité. Une utilisation efficace des données synthétiques nécessite généralement un effort humain important pour leur curation. Nous nous concentrons sur l'utilisation des données synthétiques pour le post-entraînement, en créant spécifiquement des données à l'aide de modèles puissants pour enseigner une nouvelle compétence ou un nouveau comportement à un autre modèle, une approche que nous appelons "Enseignement Génératif". Nous présentons AgentInstruct, un cadre agentique extensible pour créer automatiquement de grandes quantités de données synthétiques diversifiées et de haute qualité. AgentInstruct peut générer à la fois les prompts et les réponses, en utilisant uniquement des sources de données brutes comme des documents texte et des fichiers de code comme point de départ. Nous démontrons l'utilité d'AgentInstruct en créant un ensemble de données de post-entraînement de 25 millions de paires pour enseigner aux modèles de langage différentes compétences, telles que l'édition de texte, l'écriture créative, l'utilisation d'outils, le codage, la compréhension de lecture, etc. Cet ensemble de données peut être utilisé pour le réglage par instruction de tout modèle de base. Nous avons post-entraîné Mistral-7b avec ces données. En comparant le modèle résultant, Orca-3, à Mistral-7b-Instruct (qui utilise le même modèle de base), nous observons des améliorations significatives sur de nombreux benchmarks. Par exemple, une amélioration de 40 % sur AGIEval, de 19 % sur MMLU, de 54 % sur GSM8K, de 38 % sur BBH et de 45 % sur AlpacaEval. De plus, il surpasse systématiquement d'autres modèles tels que LLAMA-8B-instruct et GPT-3.5-turbo.
English
Synthetic data is becoming increasingly important for accelerating the
development of language models, both large and small. Despite several
successful use cases, researchers also raised concerns around model collapse
and drawbacks of imitating other models. This discrepancy can be attributed to
the fact that synthetic data varies in quality and diversity. Effective use of
synthetic data usually requires significant human effort in curating the data.
We focus on using synthetic data for post-training, specifically creating data
by powerful models to teach a new skill or behavior to another model, we refer
to this setting as Generative Teaching. We introduce AgentInstruct, an
extensible agentic framework for automatically creating large amounts of
diverse and high-quality synthetic data. AgentInstruct can create both the
prompts and responses, using only raw data sources like text documents and code
files as seeds. We demonstrate the utility of AgentInstruct by creating a post
training dataset of 25M pairs to teach language models different skills, such
as text editing, creative writing, tool usage, coding, reading comprehension,
etc. The dataset can be used for instruction tuning of any base model. We
post-train Mistral-7b with the data. When comparing the resulting model Orca-3
to Mistral-7b-Instruct (which uses the same base model), we observe significant
improvements across many benchmarks. For example, 40% improvement on AGIEval,
19% improvement on MMLU, 54% improvement on GSM8K, 38% improvement on BBH and
45% improvement on AlpacaEval. Additionally, it consistently outperforms other
models such as LLAMA-8B-instruct and GPT-3.5-turbo.Summary
AI-Generated Summary