LLMはデータの混乱を整理できるか?LLMを用いた実用レベルのデータ準備に関する調査
Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs
January 22, 2026
著者: Wei Zhou, Jun Zhou, Haoyu Wang, Zhenghao Li, Qikang He, Shaokun Han, Guoliang Li, Xuanhe Zhou, Yeye He, Chunwei Liu, Zirui Tang, Bin Wang, Shen Tang, Kai Zuo, Yuyu Luo, Zhenzhe Zheng, Conghui He, Jingren Zhou, Fan Wu
cs.AI
要旨
データ準備は、生データセットのノイズ除去、データセット間の関係性の解明、およびそこからの有益な知見の抽出を目的としており、データ中心の多様なアプリケーションにおいて不可欠なプロセスである。(i)分析・可視化・意思決定などアプリケーション利用可能なデータへの需要の高まり、(ii)LLM技術の急速な進化、(iii)Databricks Unity Catalogのような柔軟なエージェント構築を可能にするインフラの登場に後押しされ、LLMを活用したデータ準備手法は、革新的かつ支配的パラダイムへと急速に発展しつつある。
本論文では、数百に及ぶ近年の研究文献を調査し、多様な下流タスク向けデータ準備におけるLLM技術の活用に焦点を当て、この進化する領域の体系的なレビューを提供する。まず、ルールベースでモデル固有のパイプラインから、プロンプト駆動型、文脈認識型、エージェント型の準備ワークフローへという根本的なパラダイムシフトを明らかにする。次に、この分野をデータクリーニング(標準化、エラー処理、代入など)、データ統合(実体マッチング、スキーママッチングなど)、データエンリッチメント(データ注釈、プロファイリングなど)の3つの主要タスクに分類するタスク中心の分類体系を提案する。各タスクについて、代表的な技術を概観し、それぞれの強み(汎化性能の向上、意味理解など)と限界(LLMのスケーリングに伴うコスト課題、先進的エージェントでも残る幻覚現象、先進的手法と脆弱な評価基盤のミスマッチなど)を明示する。さらに、広く用いられているデータセットと評価指標について実証的な分析を行う。最後に、未解決の研究課題を論じ、スケーラブルなLLM-データシステム、信頼性の高いエージェント型ワークフローの原理に基づいた設計、堅牢な評価プロトコルを重視した将来展望を示す。
English
Data preparation aims to denoise raw datasets, uncover cross-dataset relationships, and extract valuable insights from them, which is essential for a wide range of data-centric applications. Driven by (i) rising demands for application-ready data (e.g., for analytics, visualization, decision-making), (ii) increasingly powerful LLM techniques, and (iii) the emergence of infrastructures that facilitate flexible agent construction (e.g., using Databricks Unity Catalog), LLM-enhanced methods are rapidly becoming a transformative and potentially dominant paradigm for data preparation.
By investigating hundreds of recent literature works, this paper presents a systematic review of this evolving landscape, focusing on the use of LLM techniques to prepare data for diverse downstream tasks. First, we characterize the fundamental paradigm shift, from rule-based, model-specific pipelines to prompt-driven, context-aware, and agentic preparation workflows. Next, we introduce a task-centric taxonomy that organizes the field into three major tasks: data cleaning (e.g., standardization, error processing, imputation), data integration (e.g., entity matching, schema matching), and data enrichment (e.g., data annotation, profiling). For each task, we survey representative techniques, and highlight their respective strengths (e.g., improved generalization, semantic understanding) and limitations (e.g., the prohibitive cost of scaling LLMs, persistent hallucinations even in advanced agents, the mismatch between advanced methods and weak evaluation). Moreover, we analyze commonly used datasets and evaluation metrics (the empirical part). Finally, we discuss open research challenges and outline a forward-looking roadmap that emphasizes scalable LLM-data systems, principled designs for reliable agentic workflows, and robust evaluation protocols.