Het genereren van skyline-datasets voor data science-modellen
Generating Skyline Datasets for Data Science Models
February 16, 2025
Auteurs: Mengying Wang, Hanchao Ma, Yiyang Bian, Yangxin Fan, Yinghui Wu
cs.AI
Samenvatting
Het voorbereiden van hoogwaardige datasets die vereist zijn voor diverse data-gedreven AI- en machine learning-modellen, is een hoeksteen geworden in data-gedreven analyses. Traditionele methoden voor datadetectie integreren doorgaans datasets naar een enkele vooraf gedefinieerde kwaliteitsmaatstaf, wat kan leiden tot bias voor downstream taken. Dit artikel introduceert MODis, een framework dat datasets ontdekt door meerdere door de gebruiker gedefinieerde modelprestatiemaatstaven te optimaliseren. Gegeven een set databronnen en een model, selecteert en integreert MODis databronnen in een skyline-dataset, waarover het model de gewenste prestaties in alle prestatiemaatstaven zou moeten behalen. We formuleren MODis als een multi-doel eindige toestandstransducer en leiden drie haalbare algoritmen af om skyline-datasets te genereren. Ons eerste algoritme hanteert een "reduce-from-universal"-strategie, die begint met een universeel schema en iteratief onbelovende data verwijdert. Ons tweede algoritme verlaagt de kosten verder met een bidirectionele strategie die data-augmentatie en -reductie afwisselt. We introduceren ook een diversificatie-algoritme om de bias in skyline-datasets te verminderen. We verifiëren experimenteel de efficiëntie en effectiviteit van onze skyline-datadetectie-algoritmen en demonstreren hun toepassingen in het optimaliseren van data science-pipelines.
English
Preparing high-quality datasets required by various data-driven AI and
machine learning models has become a cornerstone task in data-driven analysis.
Conventional data discovery methods typically integrate datasets towards a
single pre-defined quality measure that may lead to bias for downstream tasks.
This paper introduces MODis, a framework that discovers datasets by optimizing
multiple user-defined, model-performance measures. Given a set of data sources
and a model, MODis selects and integrates data sources into a skyline dataset,
over which the model is expected to have the desired performance in all the
performance measures. We formulate MODis as a multi-goal finite state
transducer, and derive three feasible algorithms to generate skyline datasets.
Our first algorithm adopts a "reduce-from-universal" strategy, that starts with
a universal schema and iteratively prunes unpromising data. Our second
algorithm further reduces the cost with a bi-directional strategy that
interleaves data augmentation and reduction. We also introduce a
diversification algorithm to mitigate the bias in skyline datasets. We
experimentally verify the efficiency and effectiveness of our skyline data
discovery algorithms, and showcase their applications in optimizing data
science pipelines.Summary
AI-Generated Summary