속성을 텍스트 유전자로 활용: 조건부 합성 데이터 생성을 위한 유전 알고리즘 시뮬레이터로서의 대형 언어 모델 활용
Attributes as Textual Genes: Leveraging LLMs as Genetic Algorithm Simulators for Conditional Synthetic Data Generation
September 2, 2025
저자: Guangzeng Han, Weisi Liu, Xiaolei Huang
cs.AI
초록
대형 언어 모델(LLM)은 합성 데이터 생성에 뛰어나지만, 그 품질과 다양성을 보장하는 것은 여전히 어려운 과제입니다. 우리는 유전 알고리즘과 LLM을 결합한 새로운 프레임워크인 Genetic Prompt를 제안합니다. 이 접근법은 의미적 텍스트 속성을 유전자 서열로 간주하고, LLM을 활용해 교차 및 변이 연산을 시뮬레이션합니다. 이러한 유전적 과정은 새로운 속성 조합을 생성함으로써 데이터 품질과 다양성을 향상시키며, 실제 데이터에 더 가까운 합성 분포를 만들어냅니다. 또한, 부모 선택을 최적화하기 위해 자손 탐색 공간을 확장하는 능동 학습 기법을 통합했습니다. 여러 NLP 작업에 대한 실험 결과, Genetic Prompt는 최신 베이스라인을 크게 능가할 뿐만 아니라 다양한 생성 모델 크기와 규모에서도 견고한 성능을 보였습니다. 더불어, 우리의 합성 데이터를 원본 훈련 세트와 융합하면 특히 클래스 불균형 시나리오에서 하위 모델 성능이 크게 향상됨을 입증했습니다. 이러한 결과는 Genetic Prompt가 다양한 NLP 애플리케이션을 위한 고품질 합성 데이터를 생성하는 효과적인 방법임을 검증합니다.
English
Large Language Models (LLMs) excel at generating synthetic data, but ensuring
its quality and diversity remains challenging. We propose Genetic Prompt, a
novel framework that combines genetic algorithms with LLMs to augment synthetic
data generation. Our approach treats semantic text attributes as gene sequences
and leverages the LLM to simulate crossover and mutation operations. This
genetic process enhances data quality and diversity by creating novel attribute
combinations, yielding synthetic distributions closer to real-world data. To
optimize parent selection, we also integrate an active learning scheme that
expands the offspring search space. Our experiments on multiple NLP tasks
reveal several key findings: Genetic Prompt not only significantly outperforms
state-of-the-art baselines but also shows robust performance across various
generator model sizes and scales. Moreover, we demonstrate that fusing our
synthetic data with the original training set significantly boosts downstream
model performance, particularly for class-imbalanced scenarios. Our findings
validate that Genetic Prompt is an effective method for producing high-quality
synthetic data for a wide range of NLP applications.