AgenteInstruir: Hacia la Enseñanza Generativa con Flujos Agentes
AgentInstruct: Toward Generative Teaching with Agentic Flows
July 3, 2024
Autores: Arindam Mitra, Luciano Del Corro, Guoqing Zheng, Shweti Mahajan, Dany Rouhana, Andres Codas, Yadong Lu, Wei-ge Chen, Olga Vrousgos, Corby Rosset, Fillipe Silva, Hamed Khanpour, Yash Lara, Ahmed Awadallah
cs.AI
Resumen
Los datos sintéticos están adquiriendo una importancia creciente para acelerar el desarrollo de modelos de lenguaje, tanto grandes como pequeños. A pesar de varios casos de uso exitosos, los investigadores también han planteado preocupaciones sobre el colapso del modelo y las desventajas de imitar a otros modelos. Esta discrepancia puede atribuirse al hecho de que los datos sintéticos varían en calidad y diversidad. El uso efectivo de datos sintéticos generalmente requiere un esfuerzo humano significativo en la curación de los datos. Nos enfocamos en el uso de datos sintéticos para el post-entrenamiento, específicamente creando datos mediante modelos potentes para enseñar una nueva habilidad o comportamiento a otro modelo, a lo que nos referimos como Enseñanza Generativa. Presentamos AgentInstruct, un marco agente extensible para crear automáticamente grandes cantidades de datos sintéticos diversos y de alta calidad. AgentInstruct puede crear tanto las indicaciones como las respuestas, utilizando únicamente fuentes de datos en bruto como documentos de texto y archivos de código como semillas. Demostramos la utilidad de AgentInstruct creando un conjunto de datos de post-entrenamiento de 25M pares para enseñar a los modelos de lenguaje diferentes habilidades, como edición de texto, escritura creativa, uso de herramientas, codificación, comprensión de lectura, etc. El conjunto de datos se puede utilizar para ajustar la instrucción de cualquier modelo base. Post-entrenamos Mistral-7b con los datos. Al comparar el modelo resultante Orca-3 con Mistral-7b-Instruct (que utiliza el mismo modelo base), observamos mejoras significativas en muchos puntos de referencia. Por ejemplo, una mejora del 40% en AGIEval, del 19% en MMLU, del 54% en GSM8K, del 38% en BBH y del 45% en AlpacaEval. Además, supera consistentemente a otros modelos como LLAMA-8B-instruct y GPT-3.5-turbo.
English
Synthetic data is becoming increasingly important for accelerating the
development of language models, both large and small. Despite several
successful use cases, researchers also raised concerns around model collapse
and drawbacks of imitating other models. This discrepancy can be attributed to
the fact that synthetic data varies in quality and diversity. Effective use of
synthetic data usually requires significant human effort in curating the data.
We focus on using synthetic data for post-training, specifically creating data
by powerful models to teach a new skill or behavior to another model, we refer
to this setting as Generative Teaching. We introduce AgentInstruct, an
extensible agentic framework for automatically creating large amounts of
diverse and high-quality synthetic data. AgentInstruct can create both the
prompts and responses, using only raw data sources like text documents and code
files as seeds. We demonstrate the utility of AgentInstruct by creating a post
training dataset of 25M pairs to teach language models different skills, such
as text editing, creative writing, tool usage, coding, reading comprehension,
etc. The dataset can be used for instruction tuning of any base model. We
post-train Mistral-7b with the data. When comparing the resulting model Orca-3
to Mistral-7b-Instruct (which uses the same base model), we observe significant
improvements across many benchmarks. For example, 40% improvement on AGIEval,
19% improvement on MMLU, 54% improvement on GSM8K, 38% improvement on BBH and
45% improvement on AlpacaEval. Additionally, it consistently outperforms other
models such as LLAMA-8B-instruct and GPT-3.5-turbo.Summary
AI-Generated Summary