ChatPaper.aiChatPaper

Grands modèles de langage pour la synthèse de données

Large Language Models for Data Synthesis

May 20, 2025
Auteurs: Yihong Tang, Menglin Kong, Lijun Sun
cs.AI

Résumé

La génération de données synthétiques qui capturent fidèlement la structure statistique des distributions du monde réel constitue un défi fondamental en modélisation de données. Les approches classiques reposent souvent sur des hypothèses paramétriques fortes ou sur une conception structurelle manuelle, et peinent à s’appliquer dans des domaines à haute dimensionnalité ou hétérogènes. Les récents progrès des modèles de langage à grande échelle (LLMs) révèlent leur potentiel en tant que priors flexibles et à haute dimensionnalité pour les distributions du monde réel. Cependant, lorsqu’ils sont appliqués à la synthèse de données, l’échantillonnage standard basé sur les LLMs s’avère inefficace, limité par des contraintes de contexte fixes, et ne parvient pas à garantir un alignement statistique. Face à cela, nous introduisons LLMSynthor, un cadre général pour la synthèse de données qui transforme les LLMs en simulateurs conscients de la structure, guidés par un retour d’information distributionnel. LLMSynthor traite le LLM comme un simulateur de copule non paramétrique pour modéliser les dépendances d’ordre élevé et introduit l’échantillonnage par proposition LLM pour générer des distributions de propositions ancrées qui améliorent l’efficacité de l’échantillonnage sans nécessiter de rejet. En minimisant les écarts dans l’espace des statistiques résumées, la boucle de synthèse itérative aligne les données réelles et synthétiques tout en découvrant et en affinant progressivement la structure générative latente. Nous évaluons LLMSynthor dans des contextes contrôlés et réels en utilisant des ensembles de données hétérogènes dans des domaines sensibles à la vie privée (par exemple, commerce électronique, population et mobilité) qui englobent à la fois des formats structurés et non structurés. Les données synthétiques produites par LLMSynthor montrent une fidélité statistique élevée, une utilité pratique et une adaptabilité inter-données, ce qui en fait un outil précieux pour l’économie, les sciences sociales, les études urbaines et au-delà.
English
Generating synthetic data that faithfully captures the statistical structure of real-world distributions is a fundamental challenge in data modeling. Classical approaches often depend on strong parametric assumptions or manual structural design and struggle in high-dimensional or heterogeneous domains. Recent progress in Large Language Models (LLMs) reveals their potential as flexible, high-dimensional priors over real-world distributions. However, when applied to data synthesis, standard LLM-based sampling is inefficient, constrained by fixed context limits, and fails to ensure statistical alignment. Given this, we introduce LLMSynthor, a general framework for data synthesis that transforms LLMs into structure-aware simulators guided by distributional feedback. LLMSynthor treats the LLM as a nonparametric copula simulator for modeling high-order dependencies and introduces LLM Proposal Sampling to generate grounded proposal distributions that improve sampling efficiency without requiring rejection. By minimizing discrepancies in the summary statistics space, the iterative synthesis loop aligns real and synthetic data while gradually uncovering and refining the latent generative structure. We evaluate LLMSynthor in both controlled and real-world settings using heterogeneous datasets in privacy-sensitive domains (e.g., e-commerce, population, and mobility) that encompass both structured and unstructured formats. The synthetic data produced by LLMSynthor shows high statistical fidelity, practical utility, and cross-data adaptability, positioning it as a valuable tool across economics, social science, urban studies, and beyond.
PDF472June 2, 2025