AgenteInstrui: Rumo ao Ensino Generativo com Fluxos Agentes
AgentInstruct: Toward Generative Teaching with Agentic Flows
July 3, 2024
Autores: Arindam Mitra, Luciano Del Corro, Guoqing Zheng, Shweti Mahajan, Dany Rouhana, Andres Codas, Yadong Lu, Wei-ge Chen, Olga Vrousgos, Corby Rosset, Fillipe Silva, Hamed Khanpour, Yash Lara, Ahmed Awadallah
cs.AI
Resumo
Dados sintéticos estão se tornando cada vez mais importantes para acelerar o desenvolvimento de modelos de linguagem, tanto grandes quanto pequenos. Apesar de vários casos de uso bem-sucedidos, os pesquisadores também levantaram preocupações em torno do colapso do modelo e das desvantagens de imitar outros modelos. Essa discrepância pode ser atribuída ao fato de que os dados sintéticos variam em qualidade e diversidade. O uso eficaz de dados sintéticos geralmente requer um esforço humano significativo na curadoria dos dados. Nós nos concentramos em usar dados sintéticos para pós-treinamento, especificamente criando dados por meio de modelos poderosos para ensinar uma nova habilidade ou comportamento a outro modelo, nos referimos a esse cenário como Ensino Generativo. Apresentamos o AgentInstruct, um framework agente extensível para criar automaticamente grandes quantidades de dados sintéticos diversos e de alta qualidade. O AgentInstruct pode criar tanto os estímulos quanto as respostas, usando apenas fontes de dados brutos como documentos de texto e arquivos de código como sementes. Demonstramos a utilidade do AgentInstruct criando um conjunto de dados de pós-treinamento de 25 milhões de pares para ensinar modelos de linguagem diferentes habilidades, como edição de texto, escrita criativa, uso de ferramentas, codificação, compreensão de leitura, etc. O conjunto de dados pode ser usado para ajuste de instrução de qualquer modelo base. Pós-treinamos o Mistral-7b com os dados. Ao comparar o modelo resultante Orca-3 com o Mistral-7b-Instruct (que usa o mesmo modelo base), observamos melhorias significativas em muitos benchmarks. Por exemplo, 40% de melhoria no AGIEval, 19% de melhoria no MMLU, 54% de melhoria no GSM8K, 38% de melhoria no BBH e 45% de melhoria no AlpacaEval. Além disso, ele supera consistentemente outros modelos como LLAMA-8B-instruct e GPT-3.5-turbo.
English
Synthetic data is becoming increasingly important for accelerating the
development of language models, both large and small. Despite several
successful use cases, researchers also raised concerns around model collapse
and drawbacks of imitating other models. This discrepancy can be attributed to
the fact that synthetic data varies in quality and diversity. Effective use of
synthetic data usually requires significant human effort in curating the data.
We focus on using synthetic data for post-training, specifically creating data
by powerful models to teach a new skill or behavior to another model, we refer
to this setting as Generative Teaching. We introduce AgentInstruct, an
extensible agentic framework for automatically creating large amounts of
diverse and high-quality synthetic data. AgentInstruct can create both the
prompts and responses, using only raw data sources like text documents and code
files as seeds. We demonstrate the utility of AgentInstruct by creating a post
training dataset of 25M pairs to teach language models different skills, such
as text editing, creative writing, tool usage, coding, reading comprehension,
etc. The dataset can be used for instruction tuning of any base model. We
post-train Mistral-7b with the data. When comparing the resulting model Orca-3
to Mistral-7b-Instruct (which uses the same base model), we observe significant
improvements across many benchmarks. For example, 40% improvement on AGIEval,
19% improvement on MMLU, 54% improvement on GSM8K, 38% improvement on BBH and
45% improvement on AlpacaEval. Additionally, it consistently outperforms other
models such as LLAMA-8B-instruct and GPT-3.5-turbo.