Können LLMs Ihre Daten aufräumen? Ein Überblick über anwendungsreife Datenaufbereitung mit LLMs
Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs
January 22, 2026
papers.authors: Wei Zhou, Jun Zhou, Haoyu Wang, Zhenghao Li, Qikang He, Shaokun Han, Guoliang Li, Xuanhe Zhou, Yeye He, Chunwei Liu, Zirui Tang, Bin Wang, Shen Tang, Kai Zuo, Yuyu Luo, Zhenzhe Zheng, Conghui He, Jingren Zhou, Fan Wu
cs.AI
papers.abstract
Die Datenaufbereitung zielt darauf ab, Rohdatensätze zu entrauschen, datenübergreifende Beziehungen aufzudecken und wertvolle Erkenntnisse aus ihnen zu gewinnen, was für eine Vielzahl datenzentrierter Anwendungen unerlässlich ist. Angetrieben durch (i) den wachsenden Bedarf an anwendungsfertigen Daten (z.B. für Analysen, Visualisierung, Entscheidungsfindung), (ii) zunehmend leistungsfähige LLM-Techniken und (iii) die Entstehung von Infrastrukturen, die flexible Agentenkonstruktion ermöglichen (z.B. mittels Databricks Unity Catalog), werden LLM-gestützte Methoden schnell zu einem transformativen und potenziell dominierenden Paradigma für die Datenaufbereitung.
Durch die Untersuchung hunderter aktueller Literaturbeiträge bietet dieser Artikel einen systematischen Überblick über diese sich entwickelnde Landschaft, mit Fokus auf die Nutzung von LLM-Techniken zur Datenaufbereitung für verschiedene Downstream-Aufgaben. Zunächst charakterisieren wir den fundamentalen Paradigmenwechsel von regelbasierten, modellspezifischen Pipelines hin zu prompt-gesteuerten, kontextbewussten und agentenbasierten Aufbereitungsworkflows. Anschließend führen wir eine aufgabenorientierte Taxonomie ein, die das Feld in drei Hauptaufgaben gliedert: Datenbereinigung (z.B. Standardisierung, Fehlerbehandlung, Imputation), Datenintegration (z.B. Entity Matching, Schema Matching) und Datenanreicherung (z.B. Datenannotation, Profiling). Für jede Aufgabe untersuchen wir repräsentative Techniken und heben deren jeweilige Stärken (z.B. verbesserte Generalisierung, semantisches Verständnis) und Grenzen (z.B. prohibitive Skalierungskosten von LLMs, anhaltende Halluzinationen selbst in fortgeschrittenen Agenten, die Diskrepanz zwischen hochentwickelten Methoden und schwacher Evaluation) hervor. Darüber hinaus analysieren wir häufig verwendete Datensätze und Evaluationsmetriken (der empirische Teil). Abschließend diskutieren wir offene Forschungshürden und skizzieren eine vorausschauende Roadmap, die skalierbare LLM-Daten-Systeme, prinzipielle Designs für zuverlässige agentenbasierte Workflows und robuste Evaluationsprotokolle betont.
English
Data preparation aims to denoise raw datasets, uncover cross-dataset relationships, and extract valuable insights from them, which is essential for a wide range of data-centric applications. Driven by (i) rising demands for application-ready data (e.g., for analytics, visualization, decision-making), (ii) increasingly powerful LLM techniques, and (iii) the emergence of infrastructures that facilitate flexible agent construction (e.g., using Databricks Unity Catalog), LLM-enhanced methods are rapidly becoming a transformative and potentially dominant paradigm for data preparation.
By investigating hundreds of recent literature works, this paper presents a systematic review of this evolving landscape, focusing on the use of LLM techniques to prepare data for diverse downstream tasks. First, we characterize the fundamental paradigm shift, from rule-based, model-specific pipelines to prompt-driven, context-aware, and agentic preparation workflows. Next, we introduce a task-centric taxonomy that organizes the field into three major tasks: data cleaning (e.g., standardization, error processing, imputation), data integration (e.g., entity matching, schema matching), and data enrichment (e.g., data annotation, profiling). For each task, we survey representative techniques, and highlight their respective strengths (e.g., improved generalization, semantic understanding) and limitations (e.g., the prohibitive cost of scaling LLMs, persistent hallucinations even in advanced agents, the mismatch between advanced methods and weak evaluation). Moreover, we analyze commonly used datasets and evaluation metrics (the empirical part). Finally, we discuss open research challenges and outline a forward-looking roadmap that emphasizes scalable LLM-data systems, principled designs for reliable agentic workflows, and robust evaluation protocols.