ChatPaper.aiChatPaper

LLM으로 데이터 정리할 수 있을까? 애플리케이션 적용을 위한 데이터 준비 작업에서의 LLM 활용에 관한 연구

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

January 22, 2026
저자: Wei Zhou, Jun Zhou, Haoyu Wang, Zhenghao Li, Qikang He, Shaokun Han, Guoliang Li, Xuanhe Zhou, Yeye He, Chunwei Liu, Zirui Tang, Bin Wang, Shen Tang, Kai Zuo, Yuyu Luo, Zhenzhe Zheng, Conghui He, Jingren Zhou, Fan Wu
cs.AI

초록

데이터 준비는 원시 데이터셋의 잡음을 제거하고, 데이터셋 간 관계를 규명하며, 유의미한 통찰을 추출하는 것을 목표로 하며, 다양한 데이터 중심 애플리케이션에 필수적입니다. (i) 애널리틱스, 시각화, 의사 결정 등 애플리케이션 활용 가능한 데이터에 대한 수요 증가, (ii) 점점 더 강력해지는 대규모 언어 모델(LLM) 기술, (iii) Databricks Unity Catalog와 같이 유연한 에이전트 구축을 용이하게 하는 인프라의 출현에 힘입어, LLM 강화 방법론은 데이터 준비 분야의 변혁적이고 잠재적으로 주도적인 패러다임으로 빠르게 부상하고 있습니다. 본 논문은 수백 편의 최신 문헌을 조사하여 다양한 하류 작업을 위한 데이터 준비에 LLM 기술을 활용하는 이 진화하는 영역에 대한 체계적인 고찰을 제시합니다. 먼저, 규칙 기반, 모델 특화 파이프라인에서 프롬프트 주도, 상황 인식, 에이전트 기반 준비 워크플로우로의 근본적인 패러다임 전환을 규명합니다. 다음으로, 해당 분야를 데이터 정제(표준화, 오류 처리, 결측치 대체 등), 데이터 통합(엔터티 매칭, 스키마 매칭 등), 데이터 강화(데이터 주석 생성, 프로파일링 등)라는 세 가지 주요 작업으로 구성하는 작업 중심 분류 체계를 소개합니다. 각 작업에 대해 대표적인 기법을 검토하고, 각각의 강점(향상된 일반화 능력, 의미론적 이해 등)과 한계(LLM 확장의 과도한 비용, 고급 에이전트에서도 지속되는 환각 현상, 고급 방법론과 취약한 평가 간의 괴리)을 부각합니다. 나아가 일반적으로 사용되는 데이터셋과 평가 지표(실증적 부분)를 분석합니다. 마지막으로, 열린 연구 과제를 논의하고 확장 가능한 LLM-데이터 시스템, 신뢰할 수 있는 에이전트 워크플로우를 위한 원칙적 설계, 강건한 평가 프로토콜을 강조하는 미래 지향적인 로드맵을 제시합니다.
English
Data preparation aims to denoise raw datasets, uncover cross-dataset relationships, and extract valuable insights from them, which is essential for a wide range of data-centric applications. Driven by (i) rising demands for application-ready data (e.g., for analytics, visualization, decision-making), (ii) increasingly powerful LLM techniques, and (iii) the emergence of infrastructures that facilitate flexible agent construction (e.g., using Databricks Unity Catalog), LLM-enhanced methods are rapidly becoming a transformative and potentially dominant paradigm for data preparation. By investigating hundreds of recent literature works, this paper presents a systematic review of this evolving landscape, focusing on the use of LLM techniques to prepare data for diverse downstream tasks. First, we characterize the fundamental paradigm shift, from rule-based, model-specific pipelines to prompt-driven, context-aware, and agentic preparation workflows. Next, we introduce a task-centric taxonomy that organizes the field into three major tasks: data cleaning (e.g., standardization, error processing, imputation), data integration (e.g., entity matching, schema matching), and data enrichment (e.g., data annotation, profiling). For each task, we survey representative techniques, and highlight their respective strengths (e.g., improved generalization, semantic understanding) and limitations (e.g., the prohibitive cost of scaling LLMs, persistent hallucinations even in advanced agents, the mismatch between advanced methods and weak evaluation). Moreover, we analyze commonly used datasets and evaluation metrics (the empirical part). Finally, we discuss open research challenges and outline a forward-looking roadmap that emphasizes scalable LLM-data systems, principled designs for reliable agentic workflows, and robust evaluation protocols.
PDF1272January 28, 2026