I grandi modelli linguistici possono pulire i tuoi dati? Una rassegna sulla preparazione dati pronta per l'applicazione con i LLM
Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs
January 22, 2026
Autori: Wei Zhou, Jun Zhou, Haoyu Wang, Zhenghao Li, Qikang He, Shaokun Han, Guoliang Li, Xuanhe Zhou, Yeye He, Chunwei Liu, Zirui Tang, Bin Wang, Shen Tang, Kai Zuo, Yuyu Luo, Zhenzhe Zheng, Conghui He, Jingren Zhou, Fan Wu
cs.AI
Abstract
La preparazione dei dati mira a de-rumorizzare dataset grezzi, scoprire relazioni tra dataset ed estrarre insight preziosi da essi, operazioni essenziali per un'ampia gamma di applicazioni data-centric. Guidata (i) dalla crescente domanda di dati pronti per l'uso applicativo (ad es., per analisi, visualizzazione, decision-making), (ii) dalle tecniche di LLM sempre più potenti e (iii) dall'emergere di infrastrutture che facilitano la costruzione flessibile di agenti (ad es., utilizzando Databricks Unity Catalog), i metodi potenziati dagli LLM stanno rapidamente diventando un paradigma trasformativo e potenzialmente dominante per la preparazione dei dati.
Esaminando centinaia di lavori recenti, questo articolo presenta una revisione sistematica di questo panorama in evoluzione, concentrandosi sull'uso delle tecniche LLM per preparare dati per vari task downstream. In primo luogo, caratterizziamo il cambiamento paradigmatico fondamentale, dalle pipeline rule-based e model-specific ai flussi di lavoro di preparazione prompt-driven, context-aware e agentici. Successivamente, introduciamo una tassonomia task-centric che organizza il campo in tre task principali: data cleaning (ad es., standardizzazione, trattamento errori, imputazione), data integration (ad es., entity matching, schema matching) e data enrichment (ad es., annotazione dati, profiling). Per ogni task, esaminiamo le tecniche rappresentative ed evidenziamo i rispettivi punti di forza (ad es., migliore generalizzazione, comprensione semantica) e limitazioni (ad es., il costo proibitivo del scaling degli LLM, le allucinazioni persistenti anche in agenti avanzati, la discrepanza tra metodi avanzati e valutazione debole). Inoltre, analizziamo i dataset e le metriche di valutazione comunemente utilizzati (parte empirica). Infine, discutiamo le open research challenge e delineiamo una roadmap prospettica che enfatizza sistemi scalabili LLM-dati, design principiati per flussi di lavoro agentici affidabili e protocolli di valutazione robusti.
English
Data preparation aims to denoise raw datasets, uncover cross-dataset relationships, and extract valuable insights from them, which is essential for a wide range of data-centric applications. Driven by (i) rising demands for application-ready data (e.g., for analytics, visualization, decision-making), (ii) increasingly powerful LLM techniques, and (iii) the emergence of infrastructures that facilitate flexible agent construction (e.g., using Databricks Unity Catalog), LLM-enhanced methods are rapidly becoming a transformative and potentially dominant paradigm for data preparation.
By investigating hundreds of recent literature works, this paper presents a systematic review of this evolving landscape, focusing on the use of LLM techniques to prepare data for diverse downstream tasks. First, we characterize the fundamental paradigm shift, from rule-based, model-specific pipelines to prompt-driven, context-aware, and agentic preparation workflows. Next, we introduce a task-centric taxonomy that organizes the field into three major tasks: data cleaning (e.g., standardization, error processing, imputation), data integration (e.g., entity matching, schema matching), and data enrichment (e.g., data annotation, profiling). For each task, we survey representative techniques, and highlight their respective strengths (e.g., improved generalization, semantic understanding) and limitations (e.g., the prohibitive cost of scaling LLMs, persistent hallucinations even in advanced agents, the mismatch between advanced methods and weak evaluation). Moreover, we analyze commonly used datasets and evaluation metrics (the empirical part). Finally, we discuss open research challenges and outline a forward-looking roadmap that emphasizes scalable LLM-data systems, principled designs for reliable agentic workflows, and robust evaluation protocols.