MetaSynth: Мета-подсказки для создания агентных структур в целях генерации разнообразных синтетических данных
MetaSynth: Meta-Prompting-Driven Agentic Scaffolds for Diverse Synthetic Data Generation
April 17, 2025
Авторы: Haris Riaz, Sourav Bhabesh, Vinayak Arannil, Miguel Ballesteros, Graham Horwood
cs.AI
Аннотация
Недавние небольшие языковые модели, такие как Phi-3.5 и Phi-4, полагаются на синтетические данные, сгенерированные с использованием более крупных языковых моделей. Остаются вопросы о применении синтетических данных для других задач, таких как адаптация больших языковых моделей (LLM) к конкретным областям. Ключевым ограничением синтетических данных является низкое разнообразие, что негативно сказывается на их применимости для улучшения других моделей. Для решения этой проблемы мы предлагаем MetaSynth — метод генерации синтетических данных, который повышает разнообразие с помощью мета-промптинга, где языковая модель координирует работу нескольких "экспертных" агентов LLM для совместной генерации данных. Используя всего 25 миллионов токенов синтетических данных, сгенерированных с помощью MetaSynth, мы успешно адаптировали хорошо обученную модель (Mistral-7B-v0.3) к двум специализированным областям — финансам и биомедицине — без ущерба для её способностей в общих задачах. Кроме того, мы оценили разнообразие наших синтетических данных с использованием семи автоматизированных метрик и обнаружили, что оно приближается к разнообразию корпусов для предварительного обучения LLM.
Постоянное предварительное обучение Mistral-7B-v0.3 с использованием MetaSynth значительно превосходит базовую LLM, демонстрируя улучшения до 4,08% в финансах и 13,75% в биомедицине. Та же модель показывает снижение производительности при обучении на данных, сгенерированных с использованием шаблонного промпта, даже если шаблон включает предыдущие генерации и различные In-Context примеры реальных данных. Наши результаты показывают, что несколько миллионов токенов разнообразных синтетических данных без смешивания с реальными данными достаточно для эффективной адаптации к домену при использовании MetaSynth.
English
Recent smaller language models such Phi-3.5 and Phi-4 rely on synthetic data
generated using larger Language models. Questions remain about leveraging
synthetic data for other use cases, such as adapting LLMs to specific domains.
A key limitation of synthetic data is low diversity, which negatively impacts
its downstream applicability for improving other models. To address this, we
propose MetaSynth, a method for generating synthetic data that enhances
diversity through meta-prompting, where a language model orchestrates multiple
"expert" LLM agents to collaboratively generate data. Using only 25 million
tokens of synthetic data generated with MetaSynth, we successfully adapt a
well-trained LLM (Mistral-7B-v0.3) to two specialized domains-Finance and
Biomedicine-without compromising the capabilities of the resulting model in
general tasks. In addition, we evaluate the diversity of our synthetic data
using seven automated metrics, and find that it approaches the diversity of LLM
pre-training corpora.
Continually pre-training Mistral-7B-v0.3 with MetaSynth notably outperforms
the base LLM, showing improvements of up to 4.08% in Finance and 13.75% in
Biomedicine. The same model shows degraded performance when trained on data
generated using a template prompt, even when the template includes prior
generations and varying In-Context exemplars of real data. Our findings suggest
that a few million tokens of diverse synthetic data without mixing any real
data, is sufficient for effective domain adaptation when using MetaSynth.Summary
AI-Generated Summary