MetaSynth: 다양한 합성 데이터 생성을 위한 메타 프롬프팅 기반 에이전트 스캐폴드
MetaSynth: Meta-Prompting-Driven Agentic Scaffolds for Diverse Synthetic Data Generation
April 17, 2025
저자: Haris Riaz, Sourav Bhabesh, Vinayak Arannil, Miguel Ballesteros, Graham Horwood
cs.AI
초록
최근 Phi-3.5 및 Phi-4와 같은 소규모 언어 모델은 더 큰 언어 모델을 사용해 생성된 합성 데이터에 의존하고 있습니다. 특정 도메인에 대형 언어 모델(LLM)을 적응시키는 것과 같은 다른 사용 사례에서 합성 데이터를 활용하는 방법에 대한 의문이 남아 있습니다. 합성 데이터의 주요 한계는 다양성이 낮다는 점이며, 이는 다른 모델을 개선하기 위한 하류 적용성에 부정적인 영향을 미칩니다. 이를 해결하기 위해, 우리는 메타 프롬프팅을 통해 다양성을 향상시키는 합성 데이터 생성 방법인 MetaSynth를 제안합니다. 여기서 언어 모델은 여러 "전문가" LLM 에이전트를 조율하여 협력적으로 데이터를 생성합니다. MetaSynth로 생성된 단 2,500만 토큰의 합성 데이터만을 사용하여, 우리는 잘 훈련된 LLM(Mistral-7B-v0.3)을 금융 및 생물의학이라는 두 특수 도메인에 성공적으로 적응시켰으며, 결과 모델의 일반 작업 능력을 저하시키지 않았습니다. 또한, 우리는 7가지 자동화된 지표를 사용해 합성 데이터의 다양성을 평가했으며, 이는 LLM 사전 훈련 코퍼스의 다양성에 근접함을 발견했습니다.
MetaSynth를 사용해 Mistral-7B-v0.3을 지속적으로 사전 훈련한 결과, 기본 LLM을 크게 능가하며 금융 분야에서 최대 4.08%, 생물의학 분야에서 13.75%의 개선을 보였습니다. 동일한 모델은 템플릿 프롬프트를 사용해 생성된 데이터로 훈련했을 때 성능이 저하되었으며, 이는 템플릿에 이전 생성물과 실제 데이터의 다양한 In-Context 예시가 포함된 경우에도 마찬가지였습니다. 우리의 연구 결과는 MetaSynth를 사용할 때, 실제 데이터를 혼합하지 않고도 수백만 토큰의 다양한 합성 데이터만으로도 효과적인 도메인 적응이 가능함을 시사합니다.
English
Recent smaller language models such Phi-3.5 and Phi-4 rely on synthetic data
generated using larger Language models. Questions remain about leveraging
synthetic data for other use cases, such as adapting LLMs to specific domains.
A key limitation of synthetic data is low diversity, which negatively impacts
its downstream applicability for improving other models. To address this, we
propose MetaSynth, a method for generating synthetic data that enhances
diversity through meta-prompting, where a language model orchestrates multiple
"expert" LLM agents to collaboratively generate data. Using only 25 million
tokens of synthetic data generated with MetaSynth, we successfully adapt a
well-trained LLM (Mistral-7B-v0.3) to two specialized domains-Finance and
Biomedicine-without compromising the capabilities of the resulting model in
general tasks. In addition, we evaluate the diversity of our synthetic data
using seven automated metrics, and find that it approaches the diversity of LLM
pre-training corpora.
Continually pre-training Mistral-7B-v0.3 with MetaSynth notably outperforms
the base LLM, showing improvements of up to 4.08% in Finance and 13.75% in
Biomedicine. The same model shows degraded performance when trained on data
generated using a template prompt, even when the template includes prior
generations and varying In-Context exemplars of real data. Our findings suggest
that a few million tokens of diverse synthetic data without mixing any real
data, is sufficient for effective domain adaptation when using MetaSynth.Summary
AI-Generated Summary