MetaSynth: Meta-Prompting-Gestuurde Agentische Scaffolds voor Diverse Synthetische Datageneratie
MetaSynth: Meta-Prompting-Driven Agentic Scaffolds for Diverse Synthetic Data Generation
April 17, 2025
Auteurs: Haris Riaz, Sourav Bhabesh, Vinayak Arannil, Miguel Ballesteros, Graham Horwood
cs.AI
Samenvatting
Recente kleinere taalmodellen zoals Phi-3.5 en Phi-4 zijn afhankelijk van synthetische data die gegenereerd wordt met behulp van grotere taalmodellen. Er blijven vragen bestaan over het benutten van synthetische data voor andere use cases, zoals het aanpassen van LLM's aan specifieke domeinen. Een belangrijke beperking van synthetische data is de lage diversiteit, wat een negatieve impact heeft op de downstream toepasbaarheid voor het verbeteren van andere modellen. Om dit aan te pakken, stellen we MetaSynth voor, een methode voor het genereren van synthetische data die diversiteit vergroot door middel van meta-prompting, waarbij een taalmodel meerdere "expert" LLM-agenten coördineert om gezamenlijk data te genereren. Met slechts 25 miljoen tokens van synthetische data die gegenereerd is met MetaSynth, hebben we een goed getraind LLM (Mistral-7B-v0.3) succesvol aangepast aan twee gespecialiseerde domeinen—Financiën en Biomedische wetenschappen—zonder de mogelijkheden van het resulterende model in algemene taken aan te tasten. Daarnaast evalueren we de diversiteit van onze synthetische data met behulp van zeven geautomatiseerde metrieken, en concluderen dat deze de diversiteit van LLM pre-trainingscorpora benadert.
Het continu pre-trainen van Mistral-7B-v0.3 met MetaSynth presteert aanzienlijk beter dan het basis-LLM, met verbeteringen van tot 4,08% in Financiën en 13,75% in Biomedische wetenschappen. Hetzelfde model vertoont een verminderde prestatie wanneer het getraind wordt op data die gegenereerd is met behulp van een sjabloonprompt, zelfs wanneer de sjabloon eerdere generaties en variërende In-Context voorbeelden van echte data bevat. Onze bevindingen suggereren dat een paar miljoen tokens van diverse synthetische data, zonder enige echte data te mengen, voldoende is voor effectieve domeinadaptatie bij gebruik van MetaSynth.
English
Recent smaller language models such Phi-3.5 and Phi-4 rely on synthetic data
generated using larger Language models. Questions remain about leveraging
synthetic data for other use cases, such as adapting LLMs to specific domains.
A key limitation of synthetic data is low diversity, which negatively impacts
its downstream applicability for improving other models. To address this, we
propose MetaSynth, a method for generating synthetic data that enhances
diversity through meta-prompting, where a language model orchestrates multiple
"expert" LLM agents to collaboratively generate data. Using only 25 million
tokens of synthetic data generated with MetaSynth, we successfully adapt a
well-trained LLM (Mistral-7B-v0.3) to two specialized domains-Finance and
Biomedicine-without compromising the capabilities of the resulting model in
general tasks. In addition, we evaluate the diversity of our synthetic data
using seven automated metrics, and find that it approaches the diversity of LLM
pre-training corpora.
Continually pre-training Mistral-7B-v0.3 with MetaSynth notably outperforms
the base LLM, showing improvements of up to 4.08% in Finance and 13.75% in
Biomedicine. The same model shows degraded performance when trained on data
generated using a template prompt, even when the template includes prior
generations and varying In-Context exemplars of real data. Our findings suggest
that a few million tokens of diverse synthetic data without mixing any real
data, is sufficient for effective domain adaptation when using MetaSynth.Summary
AI-Generated Summary