ChatPaper.aiChatPaper

Могут ли большие языковые модели навести порядок в ваших данных? Обзор методов подготовки данных к применению с использованием LLM

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

January 22, 2026
Авторы: Wei Zhou, Jun Zhou, Haoyu Wang, Zhenghao Li, Qikang He, Shaokun Han, Guoliang Li, Xuanhe Zhou, Yeye He, Chunwei Liu, Zirui Tang, Bin Wang, Shen Tang, Kai Zuo, Yuyu Luo, Zhenzhe Zheng, Conghui He, Jingren Zhou, Fan Wu
cs.AI

Аннотация

Подготовка данных направлена на очистку исходных наборов данных от шума, выявление межнаборовых взаимосвязей и извлечение из них ценной информации, что крайне важно для широкого спектра данныхо-ориентированных приложений. Стимулируемая (i) растущим спросом на данные, готовые к использованию в приложениях (например, для аналитики, визуализации, принятия решений), (ii) все более мощными методами LLM и (iii) появлением инфраструктур, облегчающих гибкое построение агентов (например, с использованием Databricks Unity Catalog), методы, усиленные LLM, быстро становятся трансформационной и потенциально доминирующей парадигмой для подготовки данных. На основе анализа сотен недавних публикаций, данная статья представляет систематический обзор этой развивающейся области, фокусируясь на использовании методов LLM для подготовки данных к разнообразным последующим задачам. Во-первых, мы характеризуем фундаментальный сдвиг парадигмы — от основанных на правилах, специфичных для модели конвейеров к промпт-управляемым, контекстно-осведомленным и агентским рабочим процессам подготовки. Далее мы вводим задаче-ориентированную таксономию, которая организует область на три основные задачи: очистка данных (например, стандартизация, обработка ошибок, импутация), интеграция данных (например, сопоставление сущностей, сопоставление схем) и обогащение данных (например, аннотирование данных, профилирование). Для каждой задачи мы рассматриваем репрезентативные методы и выделяем их соответствующие преимущества (например, улучшенная обобщающая способность, семантическое понимание) и ограничения (например, запретительная стоимость масштабирования LLM, сохраняющиеся галлюцинации даже у продвинутых агентов, несоответствие между передовыми методами и слабой оценкой). Кроме того, мы анализируем широко используемые наборы данных и метрики оценки (эмпирическая часть). Наконец, мы обсуждаем открытые исследовательские проблемы и намечаем перспективную дорожную карту, подчеркивающую масштабируемые LLM-данные системы, принципиальные проекты для надежных агентских рабочих процессов и robustные протоколы оценки.
English
Data preparation aims to denoise raw datasets, uncover cross-dataset relationships, and extract valuable insights from them, which is essential for a wide range of data-centric applications. Driven by (i) rising demands for application-ready data (e.g., for analytics, visualization, decision-making), (ii) increasingly powerful LLM techniques, and (iii) the emergence of infrastructures that facilitate flexible agent construction (e.g., using Databricks Unity Catalog), LLM-enhanced methods are rapidly becoming a transformative and potentially dominant paradigm for data preparation. By investigating hundreds of recent literature works, this paper presents a systematic review of this evolving landscape, focusing on the use of LLM techniques to prepare data for diverse downstream tasks. First, we characterize the fundamental paradigm shift, from rule-based, model-specific pipelines to prompt-driven, context-aware, and agentic preparation workflows. Next, we introduce a task-centric taxonomy that organizes the field into three major tasks: data cleaning (e.g., standardization, error processing, imputation), data integration (e.g., entity matching, schema matching), and data enrichment (e.g., data annotation, profiling). For each task, we survey representative techniques, and highlight their respective strengths (e.g., improved generalization, semantic understanding) and limitations (e.g., the prohibitive cost of scaling LLMs, persistent hallucinations even in advanced agents, the mismatch between advanced methods and weak evaluation). Moreover, we analyze commonly used datasets and evaluation metrics (the empirical part). Finally, we discuss open research challenges and outline a forward-looking roadmap that emphasizes scalable LLM-data systems, principled designs for reliable agentic workflows, and robust evaluation protocols.
PDF1272January 28, 2026