AgentInstruct: Verso un Insegnamento Generativo con Flussi Agenti

Abstract

I dati sintetici stanno diventando sempre più importanti per accelerare lo sviluppo di modelli linguistici, sia di grandi che di piccole dimensioni. Nonostante diversi casi d'uso di successo, i ricercatori hanno sollevato preoccupazioni riguardo al collasso del modello e agli svantaggi dell'imitazione di altri modelli. Questa discrepanza può essere attribuita al fatto che i dati sintetici variano in qualità e diversità. L'uso efficace dei dati sintetici richiede solitamente uno sforzo umano significativo nella cura dei dati. Ci concentriamo sull'uso dei dati sintetici per il post-addestramento, in particolare sulla creazione di dati da parte di modelli potenti per insegnare una nuova abilità o comportamento a un altro modello, definendo questa impostazione come Generative Teaching. Introduciamo AgentInstruct, un framework agentico estensibile per creare automaticamente grandi quantità di dati sintetici diversificati e di alta qualità. AgentInstruct può creare sia i prompt che le risposte, utilizzando solo fonti di dati grezzi come documenti di testo e file di codice come semi. Dimostriamo l'utilità di AgentInstruct creando un dataset di post-addestramento di 25 milioni di coppie per insegnare ai modelli linguistici diverse abilità, come la modifica del testo, la scrittura creativa, l'uso di strumenti, la codifica, la comprensione della lettura, ecc. Il dataset può essere utilizzato per il tuning delle istruzioni di qualsiasi modello di base. Abbiamo eseguito il post-addestramento di Mistral-7b con i dati. Confrontando il modello risultante Orca-3 con Mistral-7b-Instruct (che utilizza lo stesso modello di base), osserviamo miglioramenti significativi su molti benchmark. Ad esempio, un miglioramento del 40% su AGIEval, del 19% su MMLU, del 54% su GSM8K, del 38% su BBH e del 45% su AlpacaEval. Inoltre, supera costantemente altri modelli come LLAMA-8B-instruct e GPT-3.5-turbo.

English

Synthetic data is becoming increasingly important for accelerating the development of language models, both large and small. Despite several successful use cases, researchers also raised concerns around model collapse and drawbacks of imitating other models. This discrepancy can be attributed to the fact that synthetic data varies in quality and diversity. Effective use of synthetic data usually requires significant human effort in curating the data. We focus on using synthetic data for post-training, specifically creating data by powerful models to teach a new skill or behavior to another model, we refer to this setting as Generative Teaching. We introduce AgentInstruct, an extensible agentic framework for automatically creating large amounts of diverse and high-quality synthetic data. AgentInstruct can create both the prompts and responses, using only raw data sources like text documents and code files as seeds. We demonstrate the utility of AgentInstruct by creating a post training dataset of 25M pairs to teach language models different skills, such as text editing, creative writing, tool usage, coding, reading comprehension, etc. The dataset can be used for instruction tuning of any base model. We post-train Mistral-7b with the data. When comparing the resulting model Orca-3 to Mistral-7b-Instruct (which uses the same base model), we observe significant improvements across many benchmarks. For example, 40% improvement on AGIEval, 19% improvement on MMLU, 54% improvement on GSM8K, 38% improvement on BBH and 45% improvement on AlpacaEval. Additionally, it consistently outperforms other models such as LLAMA-8B-instruct and GPT-3.5-turbo.

AgentInstruct: Verso un Insegnamento Generativo con Flussi Agenti

AgentInstruct: Toward Generative Teaching with Agentic Flows

Abstract

Support