ChatPaper.aiChatPaper

Os LLMs Podem Limpar a Sua Bagunça? Um Estudo sobre Preparação de Dados Pronta para Aplicação com LLMs

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

January 22, 2026
Autores: Wei Zhou, Jun Zhou, Haoyu Wang, Zhenghao Li, Qikang He, Shaokun Han, Guoliang Li, Xuanhe Zhou, Yeye He, Chunwei Liu, Zirui Tang, Bin Wang, Shen Tang, Kai Zuo, Yuyu Luo, Zhenzhe Zheng, Conghui He, Jingren Zhou, Fan Wu
cs.AI

Resumo

A preparação de dados visa remover o ruído de conjuntos de dados brutos, descobrir relações entre conjuntos de dados e extrair insights valiosos dos mesmos, sendo essencial para uma ampla gama de aplicações centradas em dados. Impulsionada (i) pelas crescentes demandas por dados prontos para aplicação (ex.: para análise, visualização, tomada de decisão), (ii) pelas técnicas de LLM cada vez mais poderosas e (iii) pelo surgimento de infraestruturas que facilitam a construção flexível de agentes (ex.: usando o Databricks Unity Catalog), os métodos aprimorados por LLM estão rapidamente se tornando um paradigma transformador e potencialmente dominante para a preparação de dados. Ao investigar centenas de trabalhos recentes da literatura, este artigo apresenta uma revisão sistemática deste panorama em evolução, focando no uso de técnicas de LLM para preparar dados para diversas tarefas subsequentes. Primeiro, caracterizamos a mudança de paradigma fundamental, de pipelines baseados em regras e específicos do modelo para fluxos de trabalho de preparação acionados por prompts, conscientes do contexto e agentivos. Em seguida, introduzimos uma taxonomia centrada em tarefas que organiza a área em três tarefas principais: limpeza de dados (ex.: padronização, tratamento de erros, imputação), integração de dados (ex.: correspondência de entidades, correspondência de esquemas) e enriquecimento de dados (ex.: anotação de dados, perfilamento). Para cada tarefa, examinamos técnicas representativas e destacamos seus respectivos pontos fortes (ex.: generalização aprimorada, compreensão semântica) e limitações (ex.: o custo proibitivo de dimensionar LLMs, alucinações persistentes mesmo em agentes avançados, o descompasso entre métodos avançados e avaliação fraca). Além disso, analisamos conjuntos de dados e métricas de avaliação comumente usados (a parte empírica). Finalmente, discutimos desafios abertos de pesquisa e delineamos um roteiro prospectivo que enfatiza sistemas escaláveis de LLM-dados, projetos fundamentados para fluxos de trabalho agentivos confiáveis e protocolos de avaliação robustos.
English
Data preparation aims to denoise raw datasets, uncover cross-dataset relationships, and extract valuable insights from them, which is essential for a wide range of data-centric applications. Driven by (i) rising demands for application-ready data (e.g., for analytics, visualization, decision-making), (ii) increasingly powerful LLM techniques, and (iii) the emergence of infrastructures that facilitate flexible agent construction (e.g., using Databricks Unity Catalog), LLM-enhanced methods are rapidly becoming a transformative and potentially dominant paradigm for data preparation. By investigating hundreds of recent literature works, this paper presents a systematic review of this evolving landscape, focusing on the use of LLM techniques to prepare data for diverse downstream tasks. First, we characterize the fundamental paradigm shift, from rule-based, model-specific pipelines to prompt-driven, context-aware, and agentic preparation workflows. Next, we introduce a task-centric taxonomy that organizes the field into three major tasks: data cleaning (e.g., standardization, error processing, imputation), data integration (e.g., entity matching, schema matching), and data enrichment (e.g., data annotation, profiling). For each task, we survey representative techniques, and highlight their respective strengths (e.g., improved generalization, semantic understanding) and limitations (e.g., the prohibitive cost of scaling LLMs, persistent hallucinations even in advanced agents, the mismatch between advanced methods and weak evaluation). Moreover, we analyze commonly used datasets and evaluation metrics (the empirical part). Finally, we discuss open research challenges and outline a forward-looking roadmap that emphasizes scalable LLM-data systems, principled designs for reliable agentic workflows, and robust evaluation protocols.
PDF1895March 6, 2026