MetaSynth: Scaffold Agenti Guidati da Meta-Prompting per la Generazione di Dati Sintetici Diversificati
MetaSynth: Meta-Prompting-Driven Agentic Scaffolds for Diverse Synthetic Data Generation
April 17, 2025
Autori: Haris Riaz, Sourav Bhabesh, Vinayak Arannil, Miguel Ballesteros, Graham Horwood
cs.AI
Abstract
Modelli linguistici più recenti e di dimensioni ridotte come Phi-3.5 e Phi-4 si basano su dati sintetici generati utilizzando modelli linguistici più grandi. Rimangono domande aperte sull'utilizzo di dati sintetici per altri casi d'uso, come l'adattamento di LLM a domini specifici. Una limitazione chiave dei dati sintetici è la bassa diversità, che influisce negativamente sulla loro applicabilità a valle per migliorare altri modelli. Per affrontare questo problema, proponiamo MetaSynth, un metodo per generare dati sintetici che migliora la diversità attraverso il meta-prompting, in cui un modello linguistico coordina più agenti LLM "esperti" per generare dati in modo collaborativo. Utilizzando solo 25 milioni di token di dati sintetici generati con MetaSynth, abbiamo adattato con successo un LLM ben addestrato (Mistral-7B-v0.3) a due domini specializzati—Finanza e Biomedicina—senza compromettere le capacità del modello risultante in compiti generali. Inoltre, abbiamo valutato la diversità dei nostri dati sintetici utilizzando sette metriche automatizzate e abbiamo riscontrato che si avvicina alla diversità dei corpora di pre-addestramento degli LLM.
Il pre-addestramento continuo di Mistral-7B-v0.3 con MetaSynth supera notevolmente il modello LLM di base, mostrando miglioramenti fino al 4,08% in Finanza e al 13,75% in Biomedicina. Lo stesso modello mostra prestazioni ridotte quando addestrato su dati generati utilizzando un prompt basato su template, anche quando il template include generazioni precedenti e vari esempi In-Context di dati reali. I nostri risultati suggeriscono che pochi milioni di token di dati sintetici diversificati, senza mescolare alcun dato reale, sono sufficienti per un adattamento efficace al dominio quando si utilizza MetaSynth.
English
Recent smaller language models such Phi-3.5 and Phi-4 rely on synthetic data
generated using larger Language models. Questions remain about leveraging
synthetic data for other use cases, such as adapting LLMs to specific domains.
A key limitation of synthetic data is low diversity, which negatively impacts
its downstream applicability for improving other models. To address this, we
propose MetaSynth, a method for generating synthetic data that enhances
diversity through meta-prompting, where a language model orchestrates multiple
"expert" LLM agents to collaboratively generate data. Using only 25 million
tokens of synthetic data generated with MetaSynth, we successfully adapt a
well-trained LLM (Mistral-7B-v0.3) to two specialized domains-Finance and
Biomedicine-without compromising the capabilities of the resulting model in
general tasks. In addition, we evaluate the diversity of our synthetic data
using seven automated metrics, and find that it approaches the diversity of LLM
pre-training corpora.
Continually pre-training Mistral-7B-v0.3 with MetaSynth notably outperforms
the base LLM, showing improvements of up to 4.08% in Finance and 13.75% in
Biomedicine. The same model shows degraded performance when trained on data
generated using a template prompt, even when the template includes prior
generations and varying In-Context exemplars of real data. Our findings suggest
that a few million tokens of diverse synthetic data without mixing any real
data, is sufficient for effective domain adaptation when using MetaSynth.