AgentInstruct: Verso un Insegnamento Generativo con Flussi Agenti
AgentInstruct: Toward Generative Teaching with Agentic Flows
July 3, 2024
Autori: Arindam Mitra, Luciano Del Corro, Guoqing Zheng, Shweti Mahajan, Dany Rouhana, Andres Codas, Yadong Lu, Wei-ge Chen, Olga Vrousgos, Corby Rosset, Fillipe Silva, Hamed Khanpour, Yash Lara, Ahmed Awadallah
cs.AI
Abstract
I dati sintetici stanno diventando sempre più importanti per accelerare lo sviluppo di modelli linguistici, sia di grandi che di piccole dimensioni. Nonostante diversi casi d'uso di successo, i ricercatori hanno sollevato preoccupazioni riguardo al collasso del modello e agli svantaggi dell'imitazione di altri modelli. Questa discrepanza può essere attribuita al fatto che i dati sintetici variano in qualità e diversità. L'uso efficace dei dati sintetici richiede solitamente uno sforzo umano significativo nella cura dei dati. Ci concentriamo sull'uso dei dati sintetici per il post-addestramento, in particolare sulla creazione di dati da parte di modelli potenti per insegnare una nuova abilità o comportamento a un altro modello, definendo questa impostazione come Generative Teaching. Introduciamo AgentInstruct, un framework agentico estensibile per creare automaticamente grandi quantità di dati sintetici diversificati e di alta qualità. AgentInstruct può creare sia i prompt che le risposte, utilizzando solo fonti di dati grezzi come documenti di testo e file di codice come semi. Dimostriamo l'utilità di AgentInstruct creando un dataset di post-addestramento di 25 milioni di coppie per insegnare ai modelli linguistici diverse abilità, come la modifica del testo, la scrittura creativa, l'uso di strumenti, la codifica, la comprensione della lettura, ecc. Il dataset può essere utilizzato per il tuning delle istruzioni di qualsiasi modello di base. Abbiamo eseguito il post-addestramento di Mistral-7b con i dati. Confrontando il modello risultante Orca-3 con Mistral-7b-Instruct (che utilizza lo stesso modello di base), osserviamo miglioramenti significativi su molti benchmark. Ad esempio, un miglioramento del 40% su AGIEval, del 19% su MMLU, del 54% su GSM8K, del 38% su BBH e del 45% su AlpacaEval. Inoltre, supera costantemente altri modelli come LLAMA-8B-instruct e GPT-3.5-turbo.
English
Synthetic data is becoming increasingly important for accelerating the
development of language models, both large and small. Despite several
successful use cases, researchers also raised concerns around model collapse
and drawbacks of imitating other models. This discrepancy can be attributed to
the fact that synthetic data varies in quality and diversity. Effective use of
synthetic data usually requires significant human effort in curating the data.
We focus on using synthetic data for post-training, specifically creating data
by powerful models to teach a new skill or behavior to another model, we refer
to this setting as Generative Teaching. We introduce AgentInstruct, an
extensible agentic framework for automatically creating large amounts of
diverse and high-quality synthetic data. AgentInstruct can create both the
prompts and responses, using only raw data sources like text documents and code
files as seeds. We demonstrate the utility of AgentInstruct by creating a post
training dataset of 25M pairs to teach language models different skills, such
as text editing, creative writing, tool usage, coding, reading comprehension,
etc. The dataset can be used for instruction tuning of any base model. We
post-train Mistral-7b with the data. When comparing the resulting model Orca-3
to Mistral-7b-Instruct (which uses the same base model), we observe significant
improvements across many benchmarks. For example, 40% improvement on AGIEval,
19% improvement on MMLU, 54% improvement on GSM8K, 38% improvement on BBH and
45% improvement on AlpacaEval. Additionally, it consistently outperforms other
models such as LLAMA-8B-instruct and GPT-3.5-turbo.