Крупные языковые модели для синтеза данных
Large Language Models for Data Synthesis
May 20, 2025
Авторы: Yihong Tang, Menglin Kong, Lijun Sun
cs.AI
Аннотация
Генерация синтетических данных, которые точно отражают статистическую структуру реальных распределений, является фундаментальной задачей в моделировании данных. Классические подходы часто зависят от строгих параметрических предположений или ручного проектирования структуры и сталкиваются с трудностями в высокоразмерных или гетерогенных областях. Недавние достижения в области больших языковых моделей (LLM) демонстрируют их потенциал в качестве гибких, высокоразмерных априорных распределений для реальных данных. Однако при применении к синтезу данных стандартный сэмплинг на основе LLM оказывается неэффективным, ограничивается фиксированными пределами контекста и не обеспечивает статистического соответствия. В связи с этим мы представляем LLMSynthor — общий фреймворк для синтеза данных, который преобразует LLM в структурированные симуляторы, управляемые распределенными обратными связями. LLMSynthor рассматривает LLM как непараметрический симулятор копулы для моделирования зависимостей высокого порядка и вводит LLM Proposal Sampling для генерации обоснованных предложений распределений, повышающих эффективность сэмплинга без необходимости в отбраковке. Минимизируя расхождения в пространстве сводных статистик, итеративный цикл синтеза выравнивает реальные и синтетические данные, постепенно раскрывая и уточняя скрытую генеративную структуру. Мы оцениваем LLMSynthor в контролируемых и реальных условиях, используя гетерогенные наборы данных в областях, чувствительных к конфиденциальности (например, электронная коммерция, население и мобильность), которые охватывают как структурированные, так и неструктурированные форматы. Синтетические данные, созданные LLMSynthor, демонстрируют высокую статистическую достоверность, практическую полезность и адаптируемость к различным данным, что делает их ценным инструментом в экономике, социальных науках, урбанистике и других областях.
English
Generating synthetic data that faithfully captures the statistical structure
of real-world distributions is a fundamental challenge in data modeling.
Classical approaches often depend on strong parametric assumptions or manual
structural design and struggle in high-dimensional or heterogeneous domains.
Recent progress in Large Language Models (LLMs) reveals their potential as
flexible, high-dimensional priors over real-world distributions. However, when
applied to data synthesis, standard LLM-based sampling is inefficient,
constrained by fixed context limits, and fails to ensure statistical alignment.
Given this, we introduce LLMSynthor, a general framework for data synthesis
that transforms LLMs into structure-aware simulators guided by distributional
feedback. LLMSynthor treats the LLM as a nonparametric copula simulator for
modeling high-order dependencies and introduces LLM Proposal Sampling to
generate grounded proposal distributions that improve sampling efficiency
without requiring rejection. By minimizing discrepancies in the summary
statistics space, the iterative synthesis loop aligns real and synthetic data
while gradually uncovering and refining the latent generative structure. We
evaluate LLMSynthor in both controlled and real-world settings using
heterogeneous datasets in privacy-sensitive domains (e.g., e-commerce,
population, and mobility) that encompass both structured and unstructured
formats. The synthetic data produced by LLMSynthor shows high statistical
fidelity, practical utility, and cross-data adaptability, positioning it as a
valuable tool across economics, social science, urban studies, and beyond.