Erstellung von Skyline-Datensätzen für Data-Science-Modelle
Generating Skyline Datasets for Data Science Models
February 16, 2025
Autoren: Mengying Wang, Hanchao Ma, Yiyang Bian, Yangxin Fan, Yinghui Wu
cs.AI
Zusammenfassung
Die Erstellung hochwertiger Datensätze, die von verschiedenen datengetriebenen KI- und Machine-Learning-Modellen benötigt werden, ist zu einer zentralen Aufgabe in der datengetriebenen Analyse geworden. Herkömmliche Methoden zur Datensatzentdeckung integrieren Datensätze typischerweise anhand eines einzigen vordefinierten Qualitätsmaßes, was zu Verzerrungen bei nachgelagerten Aufgaben führen kann. Dieses Papier stellt MODis vor, ein Framework, das Datensätze durch die Optimierung mehrerer benutzerdefinierter Modellleistungsmaße entdeckt. Gegeben eine Menge von Datenquellen und ein Modell, wählt MODis Datenquellen aus und integriert sie in einen Skyline-Datensatz, über dem das Modell die gewünschte Leistung in allen Leistungsmaßen erzielen soll. Wir formulieren MODis als einen Multi-Ziel-Finite-State-Transducer und leiten drei praktikable Algorithmen zur Erzeugung von Skyline-Datensätzen ab. Unser erster Algorithmus verfolgt eine „Reduzieren-von-universell“-Strategie, die mit einem universellen Schema beginnt und iterativ unvielversprechende Daten aussortiert. Unser zweiter Algorithmus reduziert die Kosten weiter durch eine bidirektionale Strategie, die Datenanreicherung und -reduktion miteinander verknüpft. Wir führen außerdem einen Diversifizierungsalgorithmus ein, um Verzerrungen in Skyline-Datensätzen zu mindern. Wir überprüfen experimentell die Effizienz und Wirksamkeit unserer Skyline-Datensatzentdeckungsalgorithmen und demonstrieren ihre Anwendungen bei der Optimierung von Data-Science-Pipelines.
English
Preparing high-quality datasets required by various data-driven AI and
machine learning models has become a cornerstone task in data-driven analysis.
Conventional data discovery methods typically integrate datasets towards a
single pre-defined quality measure that may lead to bias for downstream tasks.
This paper introduces MODis, a framework that discovers datasets by optimizing
multiple user-defined, model-performance measures. Given a set of data sources
and a model, MODis selects and integrates data sources into a skyline dataset,
over which the model is expected to have the desired performance in all the
performance measures. We formulate MODis as a multi-goal finite state
transducer, and derive three feasible algorithms to generate skyline datasets.
Our first algorithm adopts a "reduce-from-universal" strategy, that starts with
a universal schema and iteratively prunes unpromising data. Our second
algorithm further reduces the cost with a bi-directional strategy that
interleaves data augmentation and reduction. We also introduce a
diversification algorithm to mitigate the bias in skyline datasets. We
experimentally verify the efficiency and effectiveness of our skyline data
discovery algorithms, and showcase their applications in optimizing data
science pipelines.Summary
AI-Generated Summary