ChatPaper.aiChatPaper

Generazione di Dataset Skyline per Modelli di Data Science

Generating Skyline Datasets for Data Science Models

February 16, 2025
Autori: Mengying Wang, Hanchao Ma, Yiyang Bian, Yangxin Fan, Yinghui Wu
cs.AI

Abstract

La preparazione di dataset di alta qualità richiesti da vari modelli di intelligenza artificiale e machine learning basati sui dati è diventata un compito fondamentale nell'analisi data-driven. I metodi convenzionali di scoperta dei dati tipicamente integrano i dataset verso una singola misura di qualità predefinita, che può portare a distorsioni nei compiti successivi. Questo articolo introduce MODis, un framework che scopre i dataset ottimizzando multiple misure di prestazione definite dall'utente. Dato un insieme di fonti di dati e un modello, MODis seleziona e integra le fonti di dati in un dataset skyline, sul quale il modello dovrebbe ottenere le prestazioni desiderate in tutte le misure di performance. Formuliamo MODis come un trasduttore a stati finiti multi-obiettivo e deriviamo tre algoritmi fattibili per generare dataset skyline. Il nostro primo algoritmo adotta una strategia "riduci-dall'universale", che parte da uno schema universale e riduce iterativamente i dati non promettenti. Il secondo algoritmo riduce ulteriormente i costi con una strategia bidirezionale che alterna l'aumento e la riduzione dei dati. Introduciamo anche un algoritmo di diversificazione per mitigare le distorsioni nei dataset skyline. Verifichiamo sperimentalmente l'efficienza e l'efficacia dei nostri algoritmi di scoperta dei dati skyline e ne mostriamo le applicazioni nell'ottimizzazione delle pipeline di data science.
English
Preparing high-quality datasets required by various data-driven AI and machine learning models has become a cornerstone task in data-driven analysis. Conventional data discovery methods typically integrate datasets towards a single pre-defined quality measure that may lead to bias for downstream tasks. This paper introduces MODis, a framework that discovers datasets by optimizing multiple user-defined, model-performance measures. Given a set of data sources and a model, MODis selects and integrates data sources into a skyline dataset, over which the model is expected to have the desired performance in all the performance measures. We formulate MODis as a multi-goal finite state transducer, and derive three feasible algorithms to generate skyline datasets. Our first algorithm adopts a "reduce-from-universal" strategy, that starts with a universal schema and iteratively prunes unpromising data. Our second algorithm further reduces the cost with a bi-directional strategy that interleaves data augmentation and reduction. We also introduce a diversification algorithm to mitigate the bias in skyline datasets. We experimentally verify the efficiency and effectiveness of our skyline data discovery algorithms, and showcase their applications in optimizing data science pipelines.

Summary

AI-Generated Summary

PDF72February 22, 2025