MetaSynth: Estruturas Agênicas Orientadas por Meta-Prompting para Geração Diversificada de Dados Sintéticos
MetaSynth: Meta-Prompting-Driven Agentic Scaffolds for Diverse Synthetic Data Generation
April 17, 2025
Autores: Haris Riaz, Sourav Bhabesh, Vinayak Arannil, Miguel Ballesteros, Graham Horwood
cs.AI
Resumo
Modelos de linguagem menores recentes, como Phi-3.5 e Phi-4, dependem de dados sintéticos gerados por modelos de linguagem maiores. Questões permanecem sobre o uso de dados sintéticos para outros casos de uso, como a adaptação de LLMs (Large Language Models) para domínios específicos. Uma limitação chave dos dados sintéticos é a baixa diversidade, o que impacta negativamente sua aplicabilidade subsequente para melhorar outros modelos. Para resolver isso, propomos o MetaSynth, um método para gerar dados sintéticos que aumenta a diversidade por meio de meta-prompting, onde um modelo de linguagem orquestra múltiplos agentes LLM "especialistas" para gerar dados de forma colaborativa. Usando apenas 25 milhões de tokens de dados sintéticos gerados com o MetaSynth, adaptamos com sucesso um LLM bem treinado (Mistral-7B-v0.3) para dois domínios especializados — Finanças e Biomedicina — sem comprometer as capacidades do modelo resultante em tarefas gerais. Além disso, avaliamos a diversidade dos nossos dados sintéticos usando sete métricas automatizadas e descobrimos que ela se aproxima da diversidade dos corpora de pré-treinamento de LLMs.
O pré-treinamento contínuo do Mistral-7B-v0.3 com o MetaSynth supera notavelmente o LLM base, mostrando melhorias de até 4,08% em Finanças e 13,75% em Biomedicina. O mesmo modelo apresenta desempenho degradado quando treinado com dados gerados usando um prompt de template, mesmo quando o template inclui gerações anteriores e exemplos variados de dados reais em contexto. Nossas descobertas sugerem que alguns milhões de tokens de dados sintéticos diversos, sem misturar nenhum dado real, são suficientes para uma adaptação eficaz de domínio ao usar o MetaSynth.
English
Recent smaller language models such Phi-3.5 and Phi-4 rely on synthetic data
generated using larger Language models. Questions remain about leveraging
synthetic data for other use cases, such as adapting LLMs to specific domains.
A key limitation of synthetic data is low diversity, which negatively impacts
its downstream applicability for improving other models. To address this, we
propose MetaSynth, a method for generating synthetic data that enhances
diversity through meta-prompting, where a language model orchestrates multiple
"expert" LLM agents to collaboratively generate data. Using only 25 million
tokens of synthetic data generated with MetaSynth, we successfully adapt a
well-trained LLM (Mistral-7B-v0.3) to two specialized domains-Finance and
Biomedicine-without compromising the capabilities of the resulting model in
general tasks. In addition, we evaluate the diversity of our synthetic data
using seven automated metrics, and find that it approaches the diversity of LLM
pre-training corpora.
Continually pre-training Mistral-7B-v0.3 with MetaSynth notably outperforms
the base LLM, showing improvements of up to 4.08% in Finance and 13.75% in
Biomedicine. The same model shows degraded performance when trained on data
generated using a template prompt, even when the template includes prior
generations and varying In-Context exemplars of real data. Our findings suggest
that a few million tokens of diverse synthetic data without mixing any real
data, is sufficient for effective domain adaptation when using MetaSynth.Summary
AI-Generated Summary