Kunnen LLM's je rommel opruimen? Een overzicht van toepasbare gegevensvoorbereiding met LLM's

Samenvatting

Data preparation heeft als doel ruwe datasets te ontdoen van ruis, relaties tussen datasets bloot te leggen en er waardevolle inzichten uit te halen, wat essentieel is voor een breed scala aan data-gerichte toepassingen. Aangedreven door (i) de groeiende vraag naar applicatie-klare data (bijv. voor analyse, visualisatie, besluitvorming), (ii) steeds krachtigere LLM-technieken, en (iii) de opkomst van infrastructuur die flexibele agentconstructie vergemakkelijkt (bijv. met Databricks Unity Catalog), worden met LLM verbeterde methoden snel een transformerend en potentieel dominant paradigma voor data preparation. Op basis van een onderzoek van honderden recente publicaties, presenteert dit artikel een systematische review van dit evoluerende landschap, met de focus op het gebruik van LLM-technieken om data voor te bereiden voor diverse downstream-taken. Ten eerste karakteriseren we de fundamentele paradigmaverschuiving, van op regels gebaseerde, modelspecifieke pijplijnen naar prompt-gedreven, contextbewuste en agent-achtige preparation-workflows. Vervolgens introduceren we een taakgerichte taxonomie die het veld indeelt in drie hoofdtaken: data cleaning (bijv. standaardisatie, foutverwerking, imputatie), data-integratie (bijv. entity matching, schema matching) en data-enrichment (bijv. data-annotatie, profiling). Voor elke taak bespreken we representatieve technieken en belichten we hun respectieve sterke punten (bijv. verbeterde generalisatie, semantisch begrip) en beperkingen (bijv. de prohibitieve kosten van het schalen van LLM's, hardnekkige hallucinaties zelfs in geavanceerde agents, de mismatch tussen geavanceerde methoden en zwakke evaluatie). Verder analyseren we veelgebruikte datasets en evaluatiemetrics (het empirische deel). Tot slot bespreken we open onderzoeksuitdagingen en schetsen we een vooruitziende roadmap die de nadruk legt op schaalbare LLM-data-systemen, principiële ontwerpen voor betrouwbare agent-workflows en robuuste evaluatieprotocollen.

English

Data preparation aims to denoise raw datasets, uncover cross-dataset relationships, and extract valuable insights from them, which is essential for a wide range of data-centric applications. Driven by (i) rising demands for application-ready data (e.g., for analytics, visualization, decision-making), (ii) increasingly powerful LLM techniques, and (iii) the emergence of infrastructures that facilitate flexible agent construction (e.g., using Databricks Unity Catalog), LLM-enhanced methods are rapidly becoming a transformative and potentially dominant paradigm for data preparation. By investigating hundreds of recent literature works, this paper presents a systematic review of this evolving landscape, focusing on the use of LLM techniques to prepare data for diverse downstream tasks. First, we characterize the fundamental paradigm shift, from rule-based, model-specific pipelines to prompt-driven, context-aware, and agentic preparation workflows. Next, we introduce a task-centric taxonomy that organizes the field into three major tasks: data cleaning (e.g., standardization, error processing, imputation), data integration (e.g., entity matching, schema matching), and data enrichment (e.g., data annotation, profiling). For each task, we survey representative techniques, and highlight their respective strengths (e.g., improved generalization, semantic understanding) and limitations (e.g., the prohibitive cost of scaling LLMs, persistent hallucinations even in advanced agents, the mismatch between advanced methods and weak evaluation). Moreover, we analyze commonly used datasets and evaluation metrics (the empirical part). Finally, we discuss open research challenges and outline a forward-looking roadmap that emphasizes scalable LLM-data systems, principled designs for reliable agentic workflows, and robust evaluation protocols.

Kunnen LLM's je rommel opruimen? Een overzicht van toepasbare gegevensvoorbereiding met LLM's

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

Samenvatting

Support