Modelos de Linguagem de Grande Escala para Síntese de Dados
Large Language Models for Data Synthesis
May 20, 2025
Autores: Yihong Tang, Menglin Kong, Lijun Sun
cs.AI
Resumo
Gerar dados sintéticos que capturam fielmente a estrutura estatística de distribuições do mundo real é um desafio fundamental na modelagem de dados. Abordagens clássicas frequentemente dependem de suposições paramétricas fortes ou de um design estrutural manual e lutam em domínios de alta dimensionalidade ou heterogêneos. Progressos recentes em Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) revelam seu potencial como priors flexíveis e de alta dimensionalidade sobre distribuições do mundo real. No entanto, quando aplicados à síntese de dados, a amostragem padrão baseada em LLMs é ineficiente, limitada por restrições de contexto fixas e falha em garantir alinhamento estatístico. Diante disso, introduzimos o LLMSynthor, uma estrutura geral para síntese de dados que transforma LLMs em simuladores conscientes da estrutura, guiados por feedback distribucional. O LLMSynthor trata o LLM como um simulador de cópula não paramétrico para modelar dependências de alta ordem e introduz a Amostragem de Proposta LLM para gerar distribuições de proposta fundamentadas que melhoram a eficiência da amostragem sem exigir rejeição. Ao minimizar discrepâncias no espaço de estatísticas resumidas, o loop iterativo de síntese alinha dados reais e sintéticos enquanto gradualmente descobre e refina a estrutura gerativa latente. Avaliamos o LLMSynthor em ambientes controlados e do mundo real usando conjuntos de dados heterogêneos em domínios sensíveis à privacidade (por exemplo, comércio eletrônico, população e mobilidade) que abrangem formatos estruturados e não estruturados. Os dados sintéticos produzidos pelo LLMSynthor mostram alta fidelidade estatística, utilidade prática e adaptabilidade cruzada, posicionando-o como uma ferramenta valiosa em economia, ciências sociais, estudos urbanos e além.
English
Generating synthetic data that faithfully captures the statistical structure
of real-world distributions is a fundamental challenge in data modeling.
Classical approaches often depend on strong parametric assumptions or manual
structural design and struggle in high-dimensional or heterogeneous domains.
Recent progress in Large Language Models (LLMs) reveals their potential as
flexible, high-dimensional priors over real-world distributions. However, when
applied to data synthesis, standard LLM-based sampling is inefficient,
constrained by fixed context limits, and fails to ensure statistical alignment.
Given this, we introduce LLMSynthor, a general framework for data synthesis
that transforms LLMs into structure-aware simulators guided by distributional
feedback. LLMSynthor treats the LLM as a nonparametric copula simulator for
modeling high-order dependencies and introduces LLM Proposal Sampling to
generate grounded proposal distributions that improve sampling efficiency
without requiring rejection. By minimizing discrepancies in the summary
statistics space, the iterative synthesis loop aligns real and synthetic data
while gradually uncovering and refining the latent generative structure. We
evaluate LLMSynthor in both controlled and real-world settings using
heterogeneous datasets in privacy-sensitive domains (e.g., e-commerce,
population, and mobility) that encompass both structured and unstructured
formats. The synthetic data produced by LLMSynthor shows high statistical
fidelity, practical utility, and cross-data adaptability, positioning it as a
valuable tool across economics, social science, urban studies, and beyond.