AgentInstruct: Auf dem Weg zum generativen Unterrichten mit agentischen Strömen

papers.abstract

Synthetische Daten werden zunehmend wichtig, um die Entwicklung von Sprachmodellen, sowohl groß als auch klein, zu beschleunigen. Trotz mehrerer erfolgreicher Anwendungsfälle äußerten Forscher auch Bedenken hinsichtlich Modellkollaps und Nachteilen beim Imitieren anderer Modelle. Diese Diskrepanz kann darauf zurückgeführt werden, dass synthetische Daten in Qualität und Vielfalt variieren. Der effektive Einsatz von synthetischen Daten erfordert in der Regel erhebliche menschliche Anstrengungen bei der Kuratierung der Daten. Wir konzentrieren uns auf die Verwendung von synthetischen Daten für das Nachtraining, insbesondere auf das Erstellen von Daten durch leistungsstarke Modelle, um einem anderen Modell eine neue Fähigkeit oder Verhaltensweise beizubringen. Wir bezeichnen diese Einstellung als Generative Lehre. Wir stellen AgentInstruct vor, ein erweiterbares agentisches Framework zur automatischen Erstellung großer Mengen an vielfältigen und hochwertigen synthetischen Daten. AgentInstruct kann sowohl die Aufforderungen als auch die Antworten erstellen, indem es nur Rohdatenquellen wie Textdokumente und Code-Dateien als Ausgangspunkte verwendet. Wir demonstrieren die Nützlichkeit von AgentInstruct, indem wir einen Nachtrainingsdatensatz von 25 Millionen Paaren erstellen, um Sprachmodelle in verschiedenen Fähigkeiten wie Textbearbeitung, kreatives Schreiben, Werkzeugverwendung, Codierung, Leseverständnis usw. zu unterrichten. Der Datensatz kann zur Anpassung der Anweisungen an jedes Basismodell verwendet werden. Wir führen eine Nachschulung von Mistral-7b mit den Daten durch. Bei Vergleichen des resultierenden Modells Orca-3 mit Mistral-7b-Instruct (das dasselbe Basismodell verwendet), beobachten wir signifikante Verbesserungen in vielen Benchmarks. Zum Beispiel eine 40%ige Verbesserung bei AGIEval, eine 19%ige Verbesserung bei MMLU, eine 54%ige Verbesserung bei GSM8K, eine 38%ige Verbesserung bei BBH und eine 45%ige Verbesserung bei AlpacaEval. Darüber hinaus übertrifft es konsistent andere Modelle wie LLAMA-8B-Instruct und GPT-3.5-Turbo.

English

Synthetic data is becoming increasingly important for accelerating the development of language models, both large and small. Despite several successful use cases, researchers also raised concerns around model collapse and drawbacks of imitating other models. This discrepancy can be attributed to the fact that synthetic data varies in quality and diversity. Effective use of synthetic data usually requires significant human effort in curating the data. We focus on using synthetic data for post-training, specifically creating data by powerful models to teach a new skill or behavior to another model, we refer to this setting as Generative Teaching. We introduce AgentInstruct, an extensible agentic framework for automatically creating large amounts of diverse and high-quality synthetic data. AgentInstruct can create both the prompts and responses, using only raw data sources like text documents and code files as seeds. We demonstrate the utility of AgentInstruct by creating a post training dataset of 25M pairs to teach language models different skills, such as text editing, creative writing, tool usage, coding, reading comprehension, etc. The dataset can be used for instruction tuning of any base model. We post-train Mistral-7b with the data. When comparing the resulting model Orca-3 to Mistral-7b-Instruct (which uses the same base model), we observe significant improvements across many benchmarks. For example, 40% improvement on AGIEval, 19% improvement on MMLU, 54% improvement on GSM8K, 38% improvement on BBH and 45% improvement on AlpacaEval. Additionally, it consistently outperforms other models such as LLAMA-8B-instruct and GPT-3.5-turbo.

AgentInstruct: Auf dem Weg zum generativen Unterrichten mit agentischen Strömen

AgentInstruct: Toward Generative Teaching with Agentic Flows

papers.abstract

Support