ChatPaper.aiChatPaper

Génération de jeux de données Skyline pour les modèles de science des données

Generating Skyline Datasets for Data Science Models

February 16, 2025
Auteurs: Mengying Wang, Hanchao Ma, Yiyang Bian, Yangxin Fan, Yinghui Wu
cs.AI

Résumé

La préparation de jeux de données de haute qualité, nécessaires à divers modèles d'IA et d'apprentissage automatique basés sur les données, est devenue une tâche fondamentale dans l'analyse pilotée par les données. Les méthodes conventionnelles de découverte de données intègrent généralement les jeux de données selon une seule mesure de qualité prédéfinie, ce qui peut introduire des biais pour les tâches en aval. Cet article présente MODis, un cadre qui découvre des jeux de données en optimisant plusieurs mesures de performance définies par l'utilisateur. Étant donné un ensemble de sources de données et un modèle, MODis sélectionne et intègre les sources de données en un jeu de données skyline, sur lequel le modèle est censé atteindre la performance souhaitée pour toutes les mesures de performance. Nous formulons MODis comme un transducteur d'états finis multi-objectifs et dérivons trois algorithmes réalisables pour générer des jeux de données skyline. Notre premier algorithme adopte une stratégie de "réduction à partir de l'universel", qui commence par un schéma universel et élimine itérativement les données peu prometteuses. Notre deuxième algorithme réduit davantage les coûts avec une stratégie bidirectionnelle qui alterne augmentation et réduction des données. Nous introduisons également un algorithme de diversification pour atténuer les biais dans les jeux de données skyline. Nous vérifions expérimentalement l'efficacité et l'efficience de nos algorithmes de découverte de données skyline et démontrons leurs applications dans l'optimisation des pipelines de science des données.
English
Preparing high-quality datasets required by various data-driven AI and machine learning models has become a cornerstone task in data-driven analysis. Conventional data discovery methods typically integrate datasets towards a single pre-defined quality measure that may lead to bias for downstream tasks. This paper introduces MODis, a framework that discovers datasets by optimizing multiple user-defined, model-performance measures. Given a set of data sources and a model, MODis selects and integrates data sources into a skyline dataset, over which the model is expected to have the desired performance in all the performance measures. We formulate MODis as a multi-goal finite state transducer, and derive three feasible algorithms to generate skyline datasets. Our first algorithm adopts a "reduce-from-universal" strategy, that starts with a universal schema and iteratively prunes unpromising data. Our second algorithm further reduces the cost with a bi-directional strategy that interleaves data augmentation and reduction. We also introduce a diversification algorithm to mitigate the bias in skyline datasets. We experimentally verify the efficiency and effectiveness of our skyline data discovery algorithms, and showcase their applications in optimizing data science pipelines.

Summary

AI-Generated Summary

PDF72February 22, 2025