ChatPaper.aiChatPaper

Modelos de Lenguaje a Gran Escala para la Síntesis de Datos

Large Language Models for Data Synthesis

May 20, 2025
Autores: Yihong Tang, Menglin Kong, Lijun Sun
cs.AI

Resumen

Generar datos sintéticos que capturen fielmente la estructura estadística de las distribuciones del mundo real es un desafío fundamental en el modelado de datos. Los enfoques clásicos suelen depender de fuertes suposiciones paramétricas o de un diseño estructural manual, y tienen dificultades en dominios de alta dimensionalidad o heterogéneos. Los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) revelan su potencial como priors flexibles y de alta dimensionalidad sobre distribuciones del mundo real. Sin embargo, cuando se aplican a la síntesis de datos, el muestreo estándar basado en LLMs es ineficiente, está limitado por contextos fijos y no garantiza una alineación estadística. Ante esto, presentamos LLMSynthor, un marco general para la síntesis de datos que transforma los LLMs en simuladores conscientes de la estructura guiados por retroalimentación distribucional. LLMSynthor trata al LLM como un simulador de cópula no paramétrica para modelar dependencias de alto orden e introduce el Muestreo de Propuestas con LLM para generar distribuciones de propuestas fundamentadas que mejoran la eficiencia del muestreo sin necesidad de rechazo. Al minimizar las discrepancias en el espacio de estadísticas resumidas, el ciclo iterativo de síntesis alinea los datos reales y sintéticos mientras descubre y refina gradualmente la estructura generativa latente. Evaluamos LLMSynthor en entornos controlados y del mundo real utilizando conjuntos de datos heterogéneos en dominios sensibles a la privacidad (por ejemplo, comercio electrónico, población y movilidad) que abarcan formatos estructurados y no estructurados. Los datos sintéticos producidos por LLMSynthor muestran una alta fidelidad estadística, utilidad práctica y adaptabilidad cruzada, posicionándolo como una herramienta valiosa en economía, ciencias sociales, estudios urbanos y más allá.
English
Generating synthetic data that faithfully captures the statistical structure of real-world distributions is a fundamental challenge in data modeling. Classical approaches often depend on strong parametric assumptions or manual structural design and struggle in high-dimensional or heterogeneous domains. Recent progress in Large Language Models (LLMs) reveals their potential as flexible, high-dimensional priors over real-world distributions. However, when applied to data synthesis, standard LLM-based sampling is inefficient, constrained by fixed context limits, and fails to ensure statistical alignment. Given this, we introduce LLMSynthor, a general framework for data synthesis that transforms LLMs into structure-aware simulators guided by distributional feedback. LLMSynthor treats the LLM as a nonparametric copula simulator for modeling high-order dependencies and introduces LLM Proposal Sampling to generate grounded proposal distributions that improve sampling efficiency without requiring rejection. By minimizing discrepancies in the summary statistics space, the iterative synthesis loop aligns real and synthetic data while gradually uncovering and refining the latent generative structure. We evaluate LLMSynthor in both controlled and real-world settings using heterogeneous datasets in privacy-sensitive domains (e.g., e-commerce, population, and mobility) that encompass both structured and unstructured formats. The synthetic data produced by LLMSynthor shows high statistical fidelity, practical utility, and cross-data adaptability, positioning it as a valuable tool across economics, social science, urban studies, and beyond.
PDF472June 2, 2025