Les LLM peuvent-ils nettoyer vos données ? Un panorama des méthodes de préparation de données prêtes à l'emploi avec les LLM
Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs
January 22, 2026
papers.authors: Wei Zhou, Jun Zhou, Haoyu Wang, Zhenghao Li, Qikang He, Shaokun Han, Guoliang Li, Xuanhe Zhou, Yeye He, Chunwei Liu, Zirui Tang, Bin Wang, Shen Tang, Kai Zuo, Yuyu Luo, Zhenzhe Zheng, Conghui He, Jingren Zhou, Fan Wu
cs.AI
papers.abstract
La préparation des données vise à débruiter les ensembles de données bruts, à découvrir les relations inter-données et à en extraire des informations précieuses, ce qui est essentiel pour un large éventail d'applications centrées sur la donnée. Sous l'impulsion (i) d'une demande croissante de données prêtes à l'emploi (par exemple, pour l'analyse, la visualisation, la prise de décision), (ii) de techniques de LLM de plus en plus puissantes et (iii) de l'émergence d'infrastructures facilitant la construction d'agents flexibles (par exemple, avec Databricks Unity Catalog), les méthodes assistées par les LLM deviennent rapidement un paradigme transformateur et potentiellement dominant pour la préparation des données.
En examinant des centaines de publications récentes, cet article présente une revue systématique de ce paysage en évolution, en se concentrant sur l'utilisation des techniques de LLM pour préparer les données à diverses tâches en aval. Premièrement, nous caractérisons le changement de paradigme fondamental, passant de pipelines basés sur des règles et spécifiques à un modèle à des flux de travail de préparation pilotés par prompts, sensibles au contexte et agentifs. Ensuite, nous introduisons une taxonomie centrée sur les tâches qui organise le domaine en trois tâches majeures : le nettoyage des données (par exemple, standardisation, traitement des erreurs, imputation), l'intégration des données (par exemple, appariement d'entités, appariement de schémas) et l'enrichissement des données (par exemple, annotation, profilage des données). Pour chaque tâche, nous examinons les techniques représentatives et mettons en évidence leurs forces respectives (par exemple, une meilleure généralisation, une compréhension sémantique) et leurs limites (par exemple, le coût prohibitif de la mise à l'échelle des LLM, les hallucinations persistantes même dans les agents avancés, l'inadéquation entre les méthodes avancées et une évaluation faible). De plus, nous analysons les jeux de données et les métriques d'évaluation couramment utilisés (la partie empirique). Enfin, nous discutons des défis de recherche ouverts et esquissons une feuille de route prospective qui met l'accent sur les systèmes LLM-données évolutifs, les conceptions principiées pour des workflows agentifs fiables et des protocoles d'évaluation robustes.
English
Data preparation aims to denoise raw datasets, uncover cross-dataset relationships, and extract valuable insights from them, which is essential for a wide range of data-centric applications. Driven by (i) rising demands for application-ready data (e.g., for analytics, visualization, decision-making), (ii) increasingly powerful LLM techniques, and (iii) the emergence of infrastructures that facilitate flexible agent construction (e.g., using Databricks Unity Catalog), LLM-enhanced methods are rapidly becoming a transformative and potentially dominant paradigm for data preparation.
By investigating hundreds of recent literature works, this paper presents a systematic review of this evolving landscape, focusing on the use of LLM techniques to prepare data for diverse downstream tasks. First, we characterize the fundamental paradigm shift, from rule-based, model-specific pipelines to prompt-driven, context-aware, and agentic preparation workflows. Next, we introduce a task-centric taxonomy that organizes the field into three major tasks: data cleaning (e.g., standardization, error processing, imputation), data integration (e.g., entity matching, schema matching), and data enrichment (e.g., data annotation, profiling). For each task, we survey representative techniques, and highlight their respective strengths (e.g., improved generalization, semantic understanding) and limitations (e.g., the prohibitive cost of scaling LLMs, persistent hallucinations even in advanced agents, the mismatch between advanced methods and weak evaluation). Moreover, we analyze commonly used datasets and evaluation metrics (the empirical part). Finally, we discuss open research challenges and outline a forward-looking roadmap that emphasizes scalable LLM-data systems, principled designs for reliable agentic workflows, and robust evaluation protocols.