ChatPaper.aiChatPaper

Атрибуты как текстовые гены: использование языковых моделей в качестве симуляторов генетических алгоритмов для условной генерации синтетических данных

Attributes as Textual Genes: Leveraging LLMs as Genetic Algorithm Simulators for Conditional Synthetic Data Generation

September 2, 2025
Авторы: Guangzeng Han, Weisi Liu, Xiaolei Huang
cs.AI

Аннотация

Крупные языковые модели (LLM) преуспевают в генерации синтетических данных, но обеспечение их качества и разнообразия остается сложной задачей. Мы предлагаем Genetic Prompt — новый фреймворк, который сочетает генетические алгоритмы с LLM для улучшения генерации синтетических данных. Наш подход рассматривает семантические атрибуты текста как последовательности генов и использует LLM для моделирования операций кроссовера и мутации. Этот генетический процесс повышает качество и разнообразие данных, создавая новые комбинации атрибутов, что приводит к синтетическим распределениям, более близким к реальным данным. Для оптимизации выбора родительских образцов мы также интегрируем схему активного обучения, которая расширяет пространство поиска потомков. Наши эксперименты на множестве задач NLP выявили несколько ключевых результатов: Genetic Prompt не только значительно превосходит современные базовые методы, но и демонстрирует устойчивую производительность для различных размеров и масштабов моделей-генераторов. Более того, мы показываем, что объединение наших синтетических данных с исходным обучающим набором значительно повышает производительность моделей на последующих этапах, особенно в сценариях с несбалансированными классами. Наши результаты подтверждают, что Genetic Prompt является эффективным методом для создания высококачественных синтетических данных для широкого спектра приложений NLP.
English
Large Language Models (LLMs) excel at generating synthetic data, but ensuring its quality and diversity remains challenging. We propose Genetic Prompt, a novel framework that combines genetic algorithms with LLMs to augment synthetic data generation. Our approach treats semantic text attributes as gene sequences and leverages the LLM to simulate crossover and mutation operations. This genetic process enhances data quality and diversity by creating novel attribute combinations, yielding synthetic distributions closer to real-world data. To optimize parent selection, we also integrate an active learning scheme that expands the offspring search space. Our experiments on multiple NLP tasks reveal several key findings: Genetic Prompt not only significantly outperforms state-of-the-art baselines but also shows robust performance across various generator model sizes and scales. Moreover, we demonstrate that fusing our synthetic data with the original training set significantly boosts downstream model performance, particularly for class-imbalanced scenarios. Our findings validate that Genetic Prompt is an effective method for producing high-quality synthetic data for a wide range of NLP applications.
PDF131September 3, 2025