MetaSynth: Meta-Prompting-gesteuerte agentische Gerüste für die Erzeugung diverser synthetischer Daten

papers.abstract

Kürzlich entwickelte kleinere Sprachmodelle wie Phi-3.5 und Phi-4 basieren auf synthetischen Daten, die mithilfe größerer Sprachmodelle generiert wurden. Es bleiben jedoch Fragen offen, wie synthetische Daten für andere Anwendungsfälle genutzt werden können, beispielsweise zur Anpassung von LLMs (Large Language Models) an spezifische Domänen. Eine wesentliche Einschränkung synthetischer Daten ist deren geringe Diversität, was sich negativ auf deren Anwendbarkeit zur Verbesserung anderer Modelle auswirkt. Um dies zu adressieren, schlagen wir MetaSynth vor, eine Methode zur Generierung synthetischer Daten, die die Diversität durch Meta-Prompting erhöht, bei dem ein Sprachmodell mehrere „Experten“-LLM-Agenten orchestriert, um gemeinsam Daten zu erzeugen. Mit nur 25 Millionen Token synthetischer Daten, die mit MetaSynth generiert wurden, konnten wir ein gut trainiertes LLM (Mistral-7B-v0.3) erfolgreich an zwei spezialisierte Domänen – Finanzen und Biomedizin – anpassen, ohne die Fähigkeiten des resultierenden Modells in allgemeinen Aufgaben zu beeinträchtigen. Zusätzlich bewerten wir die Diversität unserer synthetischen Daten anhand von sieben automatisierten Metriken und stellen fest, dass sie der Diversität von LLM-Vortrainingskorpora nahekommt. Die kontinuierliche Vortrainierung von Mistral-7B-v0.3 mit MetaSynth übertrifft das Basismodell deutlich und zeigt Verbesserungen von bis zu 4,08 % im Bereich Finanzen und 13,75 % in der Biomedizin. Dasselbe Modell zeigt eine verschlechterte Leistung, wenn es mit Daten trainiert wird, die mithilfe eines Template-Prompts generiert wurden, selbst wenn das Template frühere Generationen und variierende In-Context-Beispiele realer Daten enthält. Unsere Ergebnisse deuten darauf hin, dass einige Millionen Token diverser synthetischer Daten, ohne Vermischung mit realen Daten, ausreichen, um eine effektive Domänenanpassung mit MetaSynth zu erreichen.

English

Recent smaller language models such Phi-3.5 and Phi-4 rely on synthetic data generated using larger Language models. Questions remain about leveraging synthetic data for other use cases, such as adapting LLMs to specific domains. A key limitation of synthetic data is low diversity, which negatively impacts its downstream applicability for improving other models. To address this, we propose MetaSynth, a method for generating synthetic data that enhances diversity through meta-prompting, where a language model orchestrates multiple "expert" LLM agents to collaboratively generate data. Using only 25 million tokens of synthetic data generated with MetaSynth, we successfully adapt a well-trained LLM (Mistral-7B-v0.3) to two specialized domains-Finance and Biomedicine-without compromising the capabilities of the resulting model in general tasks. In addition, we evaluate the diversity of our synthetic data using seven automated metrics, and find that it approaches the diversity of LLM pre-training corpora. Continually pre-training Mistral-7B-v0.3 with MetaSynth notably outperforms the base LLM, showing improvements of up to 4.08% in Finance and 13.75% in Biomedicine. The same model shows degraded performance when trained on data generated using a template prompt, even when the template includes prior generations and varying In-Context exemplars of real data. Our findings suggest that a few million tokens of diverse synthetic data without mixing any real data, is sufficient for effective domain adaptation when using MetaSynth.

MetaSynth: Meta-Prompting-gesteuerte agentische Gerüste für die Erzeugung diverser synthetischer Daten

MetaSynth: Meta-Prompting-Driven Agentic Scaffolds for Diverse Synthetic Data Generation

papers.abstract

Support