ChatPaper.aiChatPaper

Gerando Conjuntos de Dados Skyline para Modelos de Ciência de Dados

Generating Skyline Datasets for Data Science Models

February 16, 2025
Autores: Mengying Wang, Hanchao Ma, Yiyang Bian, Yangxin Fan, Yinghui Wu
cs.AI

Resumo

A preparação de conjuntos de dados de alta qualidade, exigidos por diversos modelos de IA e aprendizado de máquina orientados a dados, tornou-se uma tarefa fundamental na análise baseada em dados. Métodos convencionais de descoberta de dados geralmente integram conjuntos de dados em direção a uma única medida de qualidade predefinida, o que pode levar a vieses em tarefas subsequentes. Este artigo apresenta o MODis, uma estrutura que descobre conjuntos de dados otimizando múltiplas medidas de desempenho definidas pelo usuário. Dado um conjunto de fontes de dados e um modelo, o MODis seleciona e integra fontes de dados em um conjunto de dados skyline, sobre o qual o modelo deve apresentar o desempenho desejado em todas as medidas de desempenho. Formulamos o MODis como um transdutor de estado finito multiobjetivo e derivamos três algoritmos viáveis para gerar conjuntos de dados skyline. Nosso primeiro algoritmo adota uma estratégia de "redução a partir do universal", que começa com um esquema universal e poda iterativamente dados pouco promissores. O segundo algoritmo reduz ainda mais o custo com uma estratégia bidirecional que intercala aumento e redução de dados. Também introduzimos um algoritmo de diversificação para mitigar o viés em conjuntos de dados skyline. Verificamos experimentalmente a eficiência e a eficácia de nossos algoritmos de descoberta de dados skyline e demonstramos suas aplicações na otimização de pipelines de ciência de dados.
English
Preparing high-quality datasets required by various data-driven AI and machine learning models has become a cornerstone task in data-driven analysis. Conventional data discovery methods typically integrate datasets towards a single pre-defined quality measure that may lead to bias for downstream tasks. This paper introduces MODis, a framework that discovers datasets by optimizing multiple user-defined, model-performance measures. Given a set of data sources and a model, MODis selects and integrates data sources into a skyline dataset, over which the model is expected to have the desired performance in all the performance measures. We formulate MODis as a multi-goal finite state transducer, and derive three feasible algorithms to generate skyline datasets. Our first algorithm adopts a "reduce-from-universal" strategy, that starts with a universal schema and iteratively prunes unpromising data. Our second algorithm further reduces the cost with a bi-directional strategy that interleaves data augmentation and reduction. We also introduce a diversification algorithm to mitigate the bias in skyline datasets. We experimentally verify the efficiency and effectiveness of our skyline data discovery algorithms, and showcase their applications in optimizing data science pipelines.

Summary

AI-Generated Summary

PDF72February 22, 2025