MetaSynth : Échafaudages agentiques pilotés par méta-invites pour la génération diversifiée de données synthétiques
MetaSynth: Meta-Prompting-Driven Agentic Scaffolds for Diverse Synthetic Data Generation
April 17, 2025
Auteurs: Haris Riaz, Sourav Bhabesh, Vinayak Arannil, Miguel Ballesteros, Graham Horwood
cs.AI
Résumé
Les modèles de langage récents de plus petite taille, tels que Phi-3.5 et Phi-4, s'appuient sur des données synthétiques générées à l'aide de modèles de langage plus grands. Des questions subsistent quant à l'utilisation des données synthétiques pour d'autres cas d'utilisation, comme l'adaptation des LLM à des domaines spécifiques. Une limitation majeure des données synthétiques est leur faible diversité, ce qui affecte négativement leur applicabilité en aval pour l'amélioration d'autres modèles. Pour remédier à cela, nous proposons MetaSynth, une méthode de génération de données synthétiques qui améliore la diversité grâce au méta-prompting, où un modèle de langage orchestre plusieurs agents LLM "experts" pour générer des données de manière collaborative. En utilisant seulement 25 millions de tokens de données synthétiques générées avec MetaSynth, nous avons réussi à adapter un LLM bien entraîné (Mistral-7B-v0.3) à deux domaines spécialisés – la finance et la biomédecine – sans compromettre les capacités du modèle résultant dans les tâches générales. De plus, nous évaluons la diversité de nos données synthétiques à l'aide de sept métriques automatisées et constatons qu'elle approche la diversité des corpus de pré-entraînement des LLM.
Le pré-entraînement continu de Mistral-7B-v0.3 avec MetaSynth surpasse notablement le LLM de base, montrant des améliorations allant jusqu'à 4,08 % en finance et 13,75 % en biomédecine. Le même modèle montre une performance dégradée lorsqu'il est entraîné sur des données générées à l'aide d'un prompt basé sur un modèle, même lorsque ce modèle inclut des générations précédentes et des exemples variés de données réelles en contexte. Nos résultats suggèrent que quelques millions de tokens de données synthétiques diversifiées, sans mélanger de données réelles, suffisent pour une adaptation de domaine efficace lors de l'utilisation de MetaSynth.
English
Recent smaller language models such Phi-3.5 and Phi-4 rely on synthetic data
generated using larger Language models. Questions remain about leveraging
synthetic data for other use cases, such as adapting LLMs to specific domains.
A key limitation of synthetic data is low diversity, which negatively impacts
its downstream applicability for improving other models. To address this, we
propose MetaSynth, a method for generating synthetic data that enhances
diversity through meta-prompting, where a language model orchestrates multiple
"expert" LLM agents to collaboratively generate data. Using only 25 million
tokens of synthetic data generated with MetaSynth, we successfully adapt a
well-trained LLM (Mistral-7B-v0.3) to two specialized domains-Finance and
Biomedicine-without compromising the capabilities of the resulting model in
general tasks. In addition, we evaluate the diversity of our synthetic data
using seven automated metrics, and find that it approaches the diversity of LLM
pre-training corpora.
Continually pre-training Mistral-7B-v0.3 with MetaSynth notably outperforms
the base LLM, showing improvements of up to 4.08% in Finance and 13.75% in
Biomedicine. The same model shows degraded performance when trained on data
generated using a template prompt, even when the template includes prior
generations and varying In-Context exemplars of real data. Our findings suggest
that a few million tokens of diverse synthetic data without mixing any real
data, is sufficient for effective domain adaptation when using MetaSynth.Summary
AI-Generated Summary