¿Pueden los LLM limpiar tu desorden? Una encuesta sobre la preparación de datos lista para aplicación con LLM
Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs
January 22, 2026
Autores: Wei Zhou, Jun Zhou, Haoyu Wang, Zhenghao Li, Qikang He, Shaokun Han, Guoliang Li, Xuanhe Zhou, Yeye He, Chunwei Liu, Zirui Tang, Bin Wang, Shen Tang, Kai Zuo, Yuyu Luo, Zhenzhe Zheng, Conghui He, Jingren Zhou, Fan Wu
cs.AI
Resumen
La preparación de datos tiene como objetivo eliminar el ruido de los conjuntos de datos brutos, descubrir relaciones entre conjuntos de datos y extraer información valiosa de ellos, lo cual es esencial para una amplia gama de aplicaciones centradas en los datos. Impulsada por (i) la creciente demanda de datos listos para su uso en aplicaciones (por ejemplo, para análisis, visualización, toma de decisiones), (ii) las técnicas de LLM cada vez más potentes, y (iii) la aparición de infraestructuras que facilitan la construcción flexible de agentes (por ejemplo, utilizando Databricks Unity Catalog), los métodos potenciados por LLM se están convirtiendo rápidamente en un paradigma transformador y potencialmente dominante para la preparación de datos.
Mediante la investigación de cientos de trabajos de literatura reciente, este artículo presenta una revisión sistemática de este panorama en evolución, centrándose en el uso de técnicas de LLM para preparar datos para diversas tareas posteriores. Primero, caracterizamos el cambio de paradigma fundamental, desde las canalizaciones basadas en reglas y específicas del modelo hasta los flujos de trabajo de preparación impulsados por instrucciones (prompts), conscientes del contexto y agentivos. A continuación, introducimos una taxonomía centrada en tareas que organiza el campo en tres tareas principales: limpieza de datos (por ejemplo, estandarización, procesamiento de errores, imputación), integración de datos (por ejemplo, coincidencia de entidades, coincidencia de esquemas) y enriquecimiento de datos (por ejemplo, anotación de datos, perfilado). Para cada tarea, examinamos técnicas representativas y destacamos sus respectivas fortalezas (por ejemplo, mejora de la generalización, comprensión semántica) y limitaciones (por ejemplo, el costo prohibitivo de escalar los LLM, las alucinaciones persistentes incluso en agentes avanzados, el desajuste entre métodos avanzados y evaluación débil). Además, analizamos conjuntos de datos y métricas de evaluación comúnmente utilizados (la parte empírica). Finalmente, discutimos los desafíos de investigación abiertos y esbozamos una hoja de ruta prospectiva que enfatiza sistemas escalables de LLM y datos, diseños basados en principios para flujos de trabajo agentivos confiables y protocolos de evaluación robustos.
English
Data preparation aims to denoise raw datasets, uncover cross-dataset relationships, and extract valuable insights from them, which is essential for a wide range of data-centric applications. Driven by (i) rising demands for application-ready data (e.g., for analytics, visualization, decision-making), (ii) increasingly powerful LLM techniques, and (iii) the emergence of infrastructures that facilitate flexible agent construction (e.g., using Databricks Unity Catalog), LLM-enhanced methods are rapidly becoming a transformative and potentially dominant paradigm for data preparation.
By investigating hundreds of recent literature works, this paper presents a systematic review of this evolving landscape, focusing on the use of LLM techniques to prepare data for diverse downstream tasks. First, we characterize the fundamental paradigm shift, from rule-based, model-specific pipelines to prompt-driven, context-aware, and agentic preparation workflows. Next, we introduce a task-centric taxonomy that organizes the field into three major tasks: data cleaning (e.g., standardization, error processing, imputation), data integration (e.g., entity matching, schema matching), and data enrichment (e.g., data annotation, profiling). For each task, we survey representative techniques, and highlight their respective strengths (e.g., improved generalization, semantic understanding) and limitations (e.g., the prohibitive cost of scaling LLMs, persistent hallucinations even in advanced agents, the mismatch between advanced methods and weak evaluation). Moreover, we analyze commonly used datasets and evaluation metrics (the empirical part). Finally, we discuss open research challenges and outline a forward-looking roadmap that emphasizes scalable LLM-data systems, principled designs for reliable agentic workflows, and robust evaluation protocols.