MetaSynth: Meta-Prompting-Gestuurde Agentische Scaffolds voor Diverse Synthetische Datageneratie

Samenvatting

Recente kleinere taalmodellen zoals Phi-3.5 en Phi-4 zijn afhankelijk van synthetische data die gegenereerd wordt met behulp van grotere taalmodellen. Er blijven vragen bestaan over het benutten van synthetische data voor andere use cases, zoals het aanpassen van LLM's aan specifieke domeinen. Een belangrijke beperking van synthetische data is de lage diversiteit, wat een negatieve impact heeft op de downstream toepasbaarheid voor het verbeteren van andere modellen. Om dit aan te pakken, stellen we MetaSynth voor, een methode voor het genereren van synthetische data die diversiteit vergroot door middel van meta-prompting, waarbij een taalmodel meerdere "expert" LLM-agenten coördineert om gezamenlijk data te genereren. Met slechts 25 miljoen tokens van synthetische data die gegenereerd is met MetaSynth, hebben we een goed getraind LLM (Mistral-7B-v0.3) succesvol aangepast aan twee gespecialiseerde domeinen—Financiën en Biomedische wetenschappen—zonder de mogelijkheden van het resulterende model in algemene taken aan te tasten. Daarnaast evalueren we de diversiteit van onze synthetische data met behulp van zeven geautomatiseerde metrieken, en concluderen dat deze de diversiteit van LLM pre-trainingscorpora benadert. Het continu pre-trainen van Mistral-7B-v0.3 met MetaSynth presteert aanzienlijk beter dan het basis-LLM, met verbeteringen van tot 4,08% in Financiën en 13,75% in Biomedische wetenschappen. Hetzelfde model vertoont een verminderde prestatie wanneer het getraind wordt op data die gegenereerd is met behulp van een sjabloonprompt, zelfs wanneer de sjabloon eerdere generaties en variërende In-Context voorbeelden van echte data bevat. Onze bevindingen suggereren dat een paar miljoen tokens van diverse synthetische data, zonder enige echte data te mengen, voldoende is voor effectieve domeinadaptatie bij gebruik van MetaSynth.

English

Recent smaller language models such Phi-3.5 and Phi-4 rely on synthetic data generated using larger Language models. Questions remain about leveraging synthetic data for other use cases, such as adapting LLMs to specific domains. A key limitation of synthetic data is low diversity, which negatively impacts its downstream applicability for improving other models. To address this, we propose MetaSynth, a method for generating synthetic data that enhances diversity through meta-prompting, where a language model orchestrates multiple "expert" LLM agents to collaboratively generate data. Using only 25 million tokens of synthetic data generated with MetaSynth, we successfully adapt a well-trained LLM (Mistral-7B-v0.3) to two specialized domains-Finance and Biomedicine-without compromising the capabilities of the resulting model in general tasks. In addition, we evaluate the diversity of our synthetic data using seven automated metrics, and find that it approaches the diversity of LLM pre-training corpora. Continually pre-training Mistral-7B-v0.3 with MetaSynth notably outperforms the base LLM, showing improvements of up to 4.08% in Finance and 13.75% in Biomedicine. The same model shows degraded performance when trained on data generated using a template prompt, even when the template includes prior generations and varying In-Context exemplars of real data. Our findings suggest that a few million tokens of diverse synthetic data without mixing any real data, is sufficient for effective domain adaptation when using MetaSynth.

MetaSynth: Meta-Prompting-Gestuurde Agentische Scaffolds voor Diverse Synthetische Datageneratie

MetaSynth: Meta-Prompting-Driven Agentic Scaffolds for Diverse Synthetic Data Generation

Samenvatting

Support