ChatPaper.aiChatPaper

Modelli Linguistici di Grande Scala per la Sintesi di Dati

Large Language Models for Data Synthesis

May 20, 2025
Autori: Yihong Tang, Menglin Kong, Lijun Sun
cs.AI

Abstract

Generare dati sintetici che catturino fedelmente la struttura statistica delle distribuzioni del mondo reale rappresenta una sfida fondamentale nella modellazione dei dati. Gli approcci classici spesso dipendono da forti assunzioni parametriche o da una progettazione strutturale manuale e faticano in domini ad alta dimensionalità o eterogenei. I recenti progressi nei Modelli Linguistici di Grande Scala (LLM) rivelano il loro potenziale come prior flessibili e ad alta dimensionalità sulle distribuzioni del mondo reale. Tuttavia, quando applicati alla sintesi di dati, il campionamento standard basato su LLM è inefficiente, limitato da vincoli di contesto fissi e non garantisce un allineamento statistico. Alla luce di ciò, introduciamo LLMSynthor, un framework generale per la sintesi di dati che trasforma gli LLM in simulatori consapevoli della struttura guidati da feedback distribuzionali. LLMSynthor tratta l'LLM come un simulatore copula non parametrico per modellare dipendenze di ordine superiore e introduce il Campionamento Proposte LLM per generare distribuzioni di proposte radicate che migliorano l'efficienza del campionamento senza richiedere rifiuti. Minimizzando le discrepanze nello spazio delle statistiche riassuntive, il ciclo iterativo di sintesi allinea i dati reali e sintetici mentre gradualmente scopre e affina la struttura generativa latente. Valutiamo LLMSynthor sia in contesti controllati che in scenari del mondo reale utilizzando dataset eterogenei in domini sensibili alla privacy (ad esempio, e-commerce, popolazione e mobilità) che comprendono sia formati strutturati che non strutturati. I dati sintetici prodotti da LLMSynthor mostrano un'elevata fedeltà statistica, utilità pratica e adattabilità cross-dati, posizionandolo come uno strumento prezioso in economia, scienze sociali, studi urbani e oltre.
English
Generating synthetic data that faithfully captures the statistical structure of real-world distributions is a fundamental challenge in data modeling. Classical approaches often depend on strong parametric assumptions or manual structural design and struggle in high-dimensional or heterogeneous domains. Recent progress in Large Language Models (LLMs) reveals their potential as flexible, high-dimensional priors over real-world distributions. However, when applied to data synthesis, standard LLM-based sampling is inefficient, constrained by fixed context limits, and fails to ensure statistical alignment. Given this, we introduce LLMSynthor, a general framework for data synthesis that transforms LLMs into structure-aware simulators guided by distributional feedback. LLMSynthor treats the LLM as a nonparametric copula simulator for modeling high-order dependencies and introduces LLM Proposal Sampling to generate grounded proposal distributions that improve sampling efficiency without requiring rejection. By minimizing discrepancies in the summary statistics space, the iterative synthesis loop aligns real and synthetic data while gradually uncovering and refining the latent generative structure. We evaluate LLMSynthor in both controlled and real-world settings using heterogeneous datasets in privacy-sensitive domains (e.g., e-commerce, population, and mobility) that encompass both structured and unstructured formats. The synthetic data produced by LLMSynthor shows high statistical fidelity, practical utility, and cross-data adaptability, positioning it as a valuable tool across economics, social science, urban studies, and beyond.
PDF492June 2, 2025