Атрибуты как текстовые гены: использование языковых моделей в качестве симуляторов генетических алгоритмов для условной генерации синтетических данных
Attributes as Textual Genes: Leveraging LLMs as Genetic Algorithm Simulators for Conditional Synthetic Data Generation
September 2, 2025
Авторы: Guangzeng Han, Weisi Liu, Xiaolei Huang
cs.AI
Аннотация
Крупные языковые модели (LLM) преуспевают в генерации синтетических данных, но обеспечение их качества и разнообразия остается сложной задачей. Мы предлагаем Genetic Prompt — новый фреймворк, который сочетает генетические алгоритмы с LLM для улучшения генерации синтетических данных. Наш подход рассматривает семантические атрибуты текста как последовательности генов и использует LLM для моделирования операций кроссовера и мутации. Этот генетический процесс повышает качество и разнообразие данных, создавая новые комбинации атрибутов, что приводит к синтетическим распределениям, более близким к реальным данным. Для оптимизации выбора родительских образцов мы также интегрируем схему активного обучения, которая расширяет пространство поиска потомков. Наши эксперименты на множестве задач NLP выявили несколько ключевых результатов: Genetic Prompt не только значительно превосходит современные базовые методы, но и демонстрирует устойчивую производительность для различных размеров и масштабов моделей-генераторов. Более того, мы показываем, что объединение наших синтетических данных с исходным обучающим набором значительно повышает производительность моделей на последующих этапах, особенно в сценариях с несбалансированными классами. Наши результаты подтверждают, что Genetic Prompt является эффективным методом для создания высококачественных синтетических данных для широкого спектра приложений NLP.
English
Large Language Models (LLMs) excel at generating synthetic data, but ensuring
its quality and diversity remains challenging. We propose Genetic Prompt, a
novel framework that combines genetic algorithms with LLMs to augment synthetic
data generation. Our approach treats semantic text attributes as gene sequences
and leverages the LLM to simulate crossover and mutation operations. This
genetic process enhances data quality and diversity by creating novel attribute
combinations, yielding synthetic distributions closer to real-world data. To
optimize parent selection, we also integrate an active learning scheme that
expands the offspring search space. Our experiments on multiple NLP tasks
reveal several key findings: Genetic Prompt not only significantly outperforms
state-of-the-art baselines but also shows robust performance across various
generator model sizes and scales. Moreover, we demonstrate that fusing our
synthetic data with the original training set significantly boosts downstream
model performance, particularly for class-imbalanced scenarios. Our findings
validate that Genetic Prompt is an effective method for producing high-quality
synthetic data for a wide range of NLP applications.