MetaSynth: Meta-Prompting-gesteuerte agentische Gerüste für die Erzeugung diverser synthetischer Daten
MetaSynth: Meta-Prompting-Driven Agentic Scaffolds for Diverse Synthetic Data Generation
April 17, 2025
Autoren: Haris Riaz, Sourav Bhabesh, Vinayak Arannil, Miguel Ballesteros, Graham Horwood
cs.AI
Zusammenfassung
Kürzlich entwickelte kleinere Sprachmodelle wie Phi-3.5 und Phi-4 basieren auf synthetischen Daten, die mithilfe größerer Sprachmodelle generiert wurden. Es bleiben jedoch Fragen offen, wie synthetische Daten für andere Anwendungsfälle genutzt werden können, beispielsweise zur Anpassung von LLMs (Large Language Models) an spezifische Domänen. Eine wesentliche Einschränkung synthetischer Daten ist deren geringe Diversität, was sich negativ auf deren Anwendbarkeit zur Verbesserung anderer Modelle auswirkt. Um dies zu adressieren, schlagen wir MetaSynth vor, eine Methode zur Generierung synthetischer Daten, die die Diversität durch Meta-Prompting erhöht, bei dem ein Sprachmodell mehrere „Experten“-LLM-Agenten orchestriert, um gemeinsam Daten zu erzeugen. Mit nur 25 Millionen Token synthetischer Daten, die mit MetaSynth generiert wurden, konnten wir ein gut trainiertes LLM (Mistral-7B-v0.3) erfolgreich an zwei spezialisierte Domänen – Finanzen und Biomedizin – anpassen, ohne die Fähigkeiten des resultierenden Modells in allgemeinen Aufgaben zu beeinträchtigen. Zusätzlich bewerten wir die Diversität unserer synthetischen Daten anhand von sieben automatisierten Metriken und stellen fest, dass sie der Diversität von LLM-Vortrainingskorpora nahekommt.
Die kontinuierliche Vortrainierung von Mistral-7B-v0.3 mit MetaSynth übertrifft das Basismodell deutlich und zeigt Verbesserungen von bis zu 4,08 % im Bereich Finanzen und 13,75 % in der Biomedizin. Dasselbe Modell zeigt eine verschlechterte Leistung, wenn es mit Daten trainiert wird, die mithilfe eines Template-Prompts generiert wurden, selbst wenn das Template frühere Generationen und variierende In-Context-Beispiele realer Daten enthält. Unsere Ergebnisse deuten darauf hin, dass einige Millionen Token diverser synthetischer Daten, ohne Vermischung mit realen Daten, ausreichen, um eine effektive Domänenanpassung mit MetaSynth zu erreichen.
English
Recent smaller language models such Phi-3.5 and Phi-4 rely on synthetic data
generated using larger Language models. Questions remain about leveraging
synthetic data for other use cases, such as adapting LLMs to specific domains.
A key limitation of synthetic data is low diversity, which negatively impacts
its downstream applicability for improving other models. To address this, we
propose MetaSynth, a method for generating synthetic data that enhances
diversity through meta-prompting, where a language model orchestrates multiple
"expert" LLM agents to collaboratively generate data. Using only 25 million
tokens of synthetic data generated with MetaSynth, we successfully adapt a
well-trained LLM (Mistral-7B-v0.3) to two specialized domains-Finance and
Biomedicine-without compromising the capabilities of the resulting model in
general tasks. In addition, we evaluate the diversity of our synthetic data
using seven automated metrics, and find that it approaches the diversity of LLM
pre-training corpora.
Continually pre-training Mistral-7B-v0.3 with MetaSynth notably outperforms
the base LLM, showing improvements of up to 4.08% in Finance and 13.75% in
Biomedicine. The same model shows degraded performance when trained on data
generated using a template prompt, even when the template includes prior
generations and varying In-Context exemplars of real data. Our findings suggest
that a few million tokens of diverse synthetic data without mixing any real
data, is sufficient for effective domain adaptation when using MetaSynth.Summary
AI-Generated Summary