Große Sprachmodelle für die Datensynthese
Large Language Models for Data Synthesis
May 20, 2025
Autoren: Yihong Tang, Menglin Kong, Lijun Sun
cs.AI
Zusammenfassung
Die Erzeugung synthetischer Daten, die die statistische Struktur realer Verteilungen treu abbilden, stellt eine grundlegende Herausforderung in der Datenmodellierung dar. Klassische Ansätze basieren oft auf starken parametrischen Annahmen oder manuell entworfenen Strukturen und stoßen in hochdimensionalen oder heterogenen Domänen an ihre Grenzen. Jüngste Fortschritte bei Large Language Models (LLMs) zeigen deren Potenz als flexible, hochdimensionale Priors für reale Verteilungen. Bei der Anwendung auf die Datensynthese erweist sich das standardmäßige LLM-basierte Sampling jedoch als ineffizient, durch feste Kontextgrenzen eingeschränkt und unfähig, statistische Übereinstimmung sicherzustellen. Vor diesem Hintergrund stellen wir LLMSynthor vor, ein allgemeines Framework für die Datensynthese, das LLMs in strukturbewusste Simulatoren transformiert, die durch verteilungsbezogenes Feedback gesteuert werden. LLMSynthor behandelt das LLM als nichtparametrischen Copula-Simulator zur Modellierung hochgradiger Abhängigkeiten und führt LLM Proposal Sampling ein, um fundierte Vorschlagsverteilungen zu erzeugen, die die Sampling-Effizienz verbessern, ohne Ablehnungsschritte zu erfordern. Durch die Minimierung von Diskrepanzen im Raum der Zusammenfassungsstatistiken gleicht der iterative Syntheseprozess reale und synthetische Daten an und deckt dabei schrittweise die latente generative Struktur auf und verfeinert sie. Wir evaluieren LLMSynthor sowohl in kontrollierten als auch in realen Umgebungen mit heterogenen Datensätzen aus datenschutzsensiblen Bereichen (z. B. E-Commerce, Bevölkerung und Mobilität), die sowohl strukturierte als auch unstrukturierte Formate umfassen. Die von LLMSynthor erzeugten synthetischen Daten weisen eine hohe statistische Treue, praktische Nützlichkeit und übergreifende Datenanpassungsfähigkeit auf, was sie zu einem wertvollen Werkzeug in den Bereichen Wirtschaftswissenschaften, Sozialwissenschaften, Stadtforschung und darüber hinaus macht.
English
Generating synthetic data that faithfully captures the statistical structure
of real-world distributions is a fundamental challenge in data modeling.
Classical approaches often depend on strong parametric assumptions or manual
structural design and struggle in high-dimensional or heterogeneous domains.
Recent progress in Large Language Models (LLMs) reveals their potential as
flexible, high-dimensional priors over real-world distributions. However, when
applied to data synthesis, standard LLM-based sampling is inefficient,
constrained by fixed context limits, and fails to ensure statistical alignment.
Given this, we introduce LLMSynthor, a general framework for data synthesis
that transforms LLMs into structure-aware simulators guided by distributional
feedback. LLMSynthor treats the LLM as a nonparametric copula simulator for
modeling high-order dependencies and introduces LLM Proposal Sampling to
generate grounded proposal distributions that improve sampling efficiency
without requiring rejection. By minimizing discrepancies in the summary
statistics space, the iterative synthesis loop aligns real and synthetic data
while gradually uncovering and refining the latent generative structure. We
evaluate LLMSynthor in both controlled and real-world settings using
heterogeneous datasets in privacy-sensitive domains (e.g., e-commerce,
population, and mobility) that encompass both structured and unstructured
formats. The synthetic data produced by LLMSynthor shows high statistical
fidelity, practical utility, and cross-data adaptability, positioning it as a
valuable tool across economics, social science, urban studies, and beyond.