AgentInstruct : Vers un enseignement génératif avec des flux agentiques

papers.abstract

Les données synthétiques prennent une importance croissante pour accélérer le développement des modèles de langage, qu'ils soient de grande ou de petite taille. Malgré plusieurs cas d'utilisation réussis, les chercheurs ont également soulevé des préoccupations concernant l'effondrement des modèles et les inconvénients de l'imitation d'autres modèles. Cette divergence peut être attribuée au fait que les données synthétiques varient en qualité et en diversité. Une utilisation efficace des données synthétiques nécessite généralement un effort humain important pour leur curation. Nous nous concentrons sur l'utilisation des données synthétiques pour le post-entraînement, en créant spécifiquement des données à l'aide de modèles puissants pour enseigner une nouvelle compétence ou un nouveau comportement à un autre modèle, une approche que nous appelons "Enseignement Génératif". Nous présentons AgentInstruct, un cadre agentique extensible pour créer automatiquement de grandes quantités de données synthétiques diversifiées et de haute qualité. AgentInstruct peut générer à la fois les prompts et les réponses, en utilisant uniquement des sources de données brutes comme des documents texte et des fichiers de code comme point de départ. Nous démontrons l'utilité d'AgentInstruct en créant un ensemble de données de post-entraînement de 25 millions de paires pour enseigner aux modèles de langage différentes compétences, telles que l'édition de texte, l'écriture créative, l'utilisation d'outils, le codage, la compréhension de lecture, etc. Cet ensemble de données peut être utilisé pour le réglage par instruction de tout modèle de base. Nous avons post-entraîné Mistral-7b avec ces données. En comparant le modèle résultant, Orca-3, à Mistral-7b-Instruct (qui utilise le même modèle de base), nous observons des améliorations significatives sur de nombreux benchmarks. Par exemple, une amélioration de 40 % sur AGIEval, de 19 % sur MMLU, de 54 % sur GSM8K, de 38 % sur BBH et de 45 % sur AlpacaEval. De plus, il surpasse systématiquement d'autres modèles tels que LLAMA-8B-instruct et GPT-3.5-turbo.

English

Synthetic data is becoming increasingly important for accelerating the development of language models, both large and small. Despite several successful use cases, researchers also raised concerns around model collapse and drawbacks of imitating other models. This discrepancy can be attributed to the fact that synthetic data varies in quality and diversity. Effective use of synthetic data usually requires significant human effort in curating the data. We focus on using synthetic data for post-training, specifically creating data by powerful models to teach a new skill or behavior to another model, we refer to this setting as Generative Teaching. We introduce AgentInstruct, an extensible agentic framework for automatically creating large amounts of diverse and high-quality synthetic data. AgentInstruct can create both the prompts and responses, using only raw data sources like text documents and code files as seeds. We demonstrate the utility of AgentInstruct by creating a post training dataset of 25M pairs to teach language models different skills, such as text editing, creative writing, tool usage, coding, reading comprehension, etc. The dataset can be used for instruction tuning of any base model. We post-train Mistral-7b with the data. When comparing the resulting model Orca-3 to Mistral-7b-Instruct (which uses the same base model), we observe significant improvements across many benchmarks. For example, 40% improvement on AGIEval, 19% improvement on MMLU, 54% improvement on GSM8K, 38% improvement on BBH and 45% improvement on AlpacaEval. Additionally, it consistently outperforms other models such as LLAMA-8B-instruct and GPT-3.5-turbo.

AgentInstruct : Vers un enseignement génératif avec des flux agentiques

AgentInstruct: Toward Generative Teaching with Agentic Flows

papers.abstract

Support