Grootschalige Taalmodellen voor Datasynthese
Large Language Models for Data Synthesis
May 20, 2025
Auteurs: Yihong Tang, Menglin Kong, Lijun Sun
cs.AI
Samenvatting
Het genereren van synthetische data die de statistische structuur van real-world distributies nauwkeurig weergeeft, is een fundamentele uitdaging in datamodellering. Klassieke benaderingen zijn vaak afhankelijk van sterke parametrische aannames of handmatig ontworpen structuren en komen in de problemen bij hoogdimensionale of heterogene domeinen. Recente vooruitgang in Large Language Models (LLM’s) toont hun potentieel als flexibele, hoogdimensionale prioris over real-world distributies. Wanneer ze echter worden toegepast op datasynthese, is standaard LLM-gebaseerde sampling inefficiënt, beperkt door vaste contextlimieten en slaagt het er niet in statistische uitlijning te garanderen. Gezien dit introduceren we LLMSynthor, een algemeen framework voor datasynthese dat LLM’s transformeert in structuurbewuste simulatoren die worden geleid door distributiegerichte feedback. LLMSynthor behandelt de LLM als een niet-parametrische copula-simulator voor het modelleren van hogere-orde afhankelijkheden en introduceert LLM Proposal Sampling om gegronde voorstel-distributies te genereren die de samplingefficiëntie verbeteren zonder afwijzing te vereisen. Door discrepanties in de samenvattende statistiekenruimte te minimaliseren, zorgt de iteratieve synthese-loop voor uitlijning tussen echte en synthetische data terwijl de latente generatieve structuur geleidelijk wordt blootgelegd en verfijnd. We evalueren LLMSynthor in zowel gecontroleerde als real-world settings met behulp van heterogene datasets in privacygevoelige domeinen (bijv. e-commerce, bevolking en mobiliteit) die zowel gestructureerde als ongestructureerde formaten omvatten. De synthetische data geproduceerd door LLMSynthor toont hoge statistische trouw, praktische bruikbaarheid en aanpassingsvermogen over verschillende datasets, wat het positioneert als een waardevol hulpmiddel in economie, sociale wetenschappen, stadsstudies en daarbuiten.
English
Generating synthetic data that faithfully captures the statistical structure
of real-world distributions is a fundamental challenge in data modeling.
Classical approaches often depend on strong parametric assumptions or manual
structural design and struggle in high-dimensional or heterogeneous domains.
Recent progress in Large Language Models (LLMs) reveals their potential as
flexible, high-dimensional priors over real-world distributions. However, when
applied to data synthesis, standard LLM-based sampling is inefficient,
constrained by fixed context limits, and fails to ensure statistical alignment.
Given this, we introduce LLMSynthor, a general framework for data synthesis
that transforms LLMs into structure-aware simulators guided by distributional
feedback. LLMSynthor treats the LLM as a nonparametric copula simulator for
modeling high-order dependencies and introduces LLM Proposal Sampling to
generate grounded proposal distributions that improve sampling efficiency
without requiring rejection. By minimizing discrepancies in the summary
statistics space, the iterative synthesis loop aligns real and synthetic data
while gradually uncovering and refining the latent generative structure. We
evaluate LLMSynthor in both controlled and real-world settings using
heterogeneous datasets in privacy-sensitive domains (e.g., e-commerce,
population, and mobility) that encompass both structured and unstructured
formats. The synthetic data produced by LLMSynthor shows high statistical
fidelity, practical utility, and cross-data adaptability, positioning it as a
valuable tool across economics, social science, urban studies, and beyond.