AgentInstruct: Auf dem Weg zum generativen Unterrichten mit agentischen Strömen
AgentInstruct: Toward Generative Teaching with Agentic Flows
July 3, 2024
Autoren: Arindam Mitra, Luciano Del Corro, Guoqing Zheng, Shweti Mahajan, Dany Rouhana, Andres Codas, Yadong Lu, Wei-ge Chen, Olga Vrousgos, Corby Rosset, Fillipe Silva, Hamed Khanpour, Yash Lara, Ahmed Awadallah
cs.AI
Zusammenfassung
Synthetische Daten werden zunehmend wichtig, um die Entwicklung von Sprachmodellen, sowohl groß als auch klein, zu beschleunigen. Trotz mehrerer erfolgreicher Anwendungsfälle äußerten Forscher auch Bedenken hinsichtlich Modellkollaps und Nachteilen beim Imitieren anderer Modelle. Diese Diskrepanz kann darauf zurückgeführt werden, dass synthetische Daten in Qualität und Vielfalt variieren. Der effektive Einsatz von synthetischen Daten erfordert in der Regel erhebliche menschliche Anstrengungen bei der Kuratierung der Daten. Wir konzentrieren uns auf die Verwendung von synthetischen Daten für das Nachtraining, insbesondere auf das Erstellen von Daten durch leistungsstarke Modelle, um einem anderen Modell eine neue Fähigkeit oder Verhaltensweise beizubringen. Wir bezeichnen diese Einstellung als Generative Lehre. Wir stellen AgentInstruct vor, ein erweiterbares agentisches Framework zur automatischen Erstellung großer Mengen an vielfältigen und hochwertigen synthetischen Daten. AgentInstruct kann sowohl die Aufforderungen als auch die Antworten erstellen, indem es nur Rohdatenquellen wie Textdokumente und Code-Dateien als Ausgangspunkte verwendet. Wir demonstrieren die Nützlichkeit von AgentInstruct, indem wir einen Nachtrainingsdatensatz von 25 Millionen Paaren erstellen, um Sprachmodelle in verschiedenen Fähigkeiten wie Textbearbeitung, kreatives Schreiben, Werkzeugverwendung, Codierung, Leseverständnis usw. zu unterrichten. Der Datensatz kann zur Anpassung der Anweisungen an jedes Basismodell verwendet werden. Wir führen eine Nachschulung von Mistral-7b mit den Daten durch. Bei Vergleichen des resultierenden Modells Orca-3 mit Mistral-7b-Instruct (das dasselbe Basismodell verwendet), beobachten wir signifikante Verbesserungen in vielen Benchmarks. Zum Beispiel eine 40%ige Verbesserung bei AGIEval, eine 19%ige Verbesserung bei MMLU, eine 54%ige Verbesserung bei GSM8K, eine 38%ige Verbesserung bei BBH und eine 45%ige Verbesserung bei AlpacaEval. Darüber hinaus übertrifft es konsistent andere Modelle wie LLAMA-8B-Instruct und GPT-3.5-Turbo.
English
Synthetic data is becoming increasingly important for accelerating the
development of language models, both large and small. Despite several
successful use cases, researchers also raised concerns around model collapse
and drawbacks of imitating other models. This discrepancy can be attributed to
the fact that synthetic data varies in quality and diversity. Effective use of
synthetic data usually requires significant human effort in curating the data.
We focus on using synthetic data for post-training, specifically creating data
by powerful models to teach a new skill or behavior to another model, we refer
to this setting as Generative Teaching. We introduce AgentInstruct, an
extensible agentic framework for automatically creating large amounts of
diverse and high-quality synthetic data. AgentInstruct can create both the
prompts and responses, using only raw data sources like text documents and code
files as seeds. We demonstrate the utility of AgentInstruct by creating a post
training dataset of 25M pairs to teach language models different skills, such
as text editing, creative writing, tool usage, coding, reading comprehension,
etc. The dataset can be used for instruction tuning of any base model. We
post-train Mistral-7b with the data. When comparing the resulting model Orca-3
to Mistral-7b-Instruct (which uses the same base model), we observe significant
improvements across many benchmarks. For example, 40% improvement on AGIEval,
19% improvement on MMLU, 54% improvement on GSM8K, 38% improvement on BBH and
45% improvement on AlpacaEval. Additionally, it consistently outperforms other
models such as LLAMA-8B-instruct and GPT-3.5-turbo.Summary
AI-Generated Summary