ChatPaper.aiChatPaper

MetaSynth: Andamiajes Agénticos Guiados por Meta-Prompting para la Generación Diversa de Datos Sintéticos

MetaSynth: Meta-Prompting-Driven Agentic Scaffolds for Diverse Synthetic Data Generation

April 17, 2025
Autores: Haris Riaz, Sourav Bhabesh, Vinayak Arannil, Miguel Ballesteros, Graham Horwood
cs.AI

Resumen

Los modelos de lenguaje más recientes y de menor tamaño, como Phi-3.5 y Phi-4, dependen de datos sintéticos generados utilizando modelos de lenguaje más grandes. Aún persisten preguntas sobre cómo aprovechar los datos sintéticos para otros casos de uso, como la adaptación de LLMs a dominios específicos. Una limitación clave de los datos sintéticos es su baja diversidad, lo que afecta negativamente su aplicabilidad descendente para mejorar otros modelos. Para abordar esto, proponemos MetaSynth, un método para generar datos sintéticos que mejora la diversidad mediante meta-prompting, donde un modelo de lenguaje orquesta múltiples agentes LLM "expertos" para generar datos de manera colaborativa. Utilizando solo 25 millones de tokens de datos sintéticos generados con MetaSynth, logramos adaptar un LLM bien entrenado (Mistral-7B-v0.3) a dos dominios especializados: Finanzas y Biomedicina, sin comprometer las capacidades del modelo resultante en tareas generales. Además, evaluamos la diversidad de nuestros datos sintéticos utilizando siete métricas automatizadas y encontramos que se acerca a la diversidad de los corpus de pre-entrenamiento de LLM. El pre-entrenamiento continuo de Mistral-7B-v0.3 con MetaSynth supera notablemente al LLM base, mostrando mejoras de hasta un 4.08% en Finanzas y un 13.75% en Biomedicina. El mismo modelo muestra un rendimiento degradado cuando se entrena con datos generados utilizando un prompt de plantilla, incluso cuando la plantilla incluye generaciones previas y ejemplos variados de datos reales en contexto. Nuestros hallazgos sugieren que unos pocos millones de tokens de datos sintéticos diversos, sin mezclar ningún dato real, son suficientes para una adaptación efectiva de dominio cuando se utiliza MetaSynth.
English
Recent smaller language models such Phi-3.5 and Phi-4 rely on synthetic data generated using larger Language models. Questions remain about leveraging synthetic data for other use cases, such as adapting LLMs to specific domains. A key limitation of synthetic data is low diversity, which negatively impacts its downstream applicability for improving other models. To address this, we propose MetaSynth, a method for generating synthetic data that enhances diversity through meta-prompting, where a language model orchestrates multiple "expert" LLM agents to collaboratively generate data. Using only 25 million tokens of synthetic data generated with MetaSynth, we successfully adapt a well-trained LLM (Mistral-7B-v0.3) to two specialized domains-Finance and Biomedicine-without compromising the capabilities of the resulting model in general tasks. In addition, we evaluate the diversity of our synthetic data using seven automated metrics, and find that it approaches the diversity of LLM pre-training corpora. Continually pre-training Mistral-7B-v0.3 with MetaSynth notably outperforms the base LLM, showing improvements of up to 4.08% in Finance and 13.75% in Biomedicine. The same model shows degraded performance when trained on data generated using a template prompt, even when the template includes prior generations and varying In-Context exemplars of real data. Our findings suggest that a few million tokens of diverse synthetic data without mixing any real data, is sufficient for effective domain adaptation when using MetaSynth.

Summary

AI-Generated Summary

PDF42April 18, 2025