Generación de Conjuntos de Datos de Skyline para Modelos de Ciencia de Datos
Generating Skyline Datasets for Data Science Models
February 16, 2025
Autores: Mengying Wang, Hanchao Ma, Yiyang Bian, Yangxin Fan, Yinghui Wu
cs.AI
Resumen
La preparación de conjuntos de datos de alta calidad, requeridos por diversos modelos de IA y aprendizaje automático basados en datos, se ha convertido en una tarea fundamental en el análisis impulsado por datos. Los métodos convencionales de descubrimiento de datos suelen integrar conjuntos de datos hacia una única medida de calidad predefinida, lo que puede generar sesgos en las tareas posteriores. Este artículo presenta MODis, un marco que descubre conjuntos de datos optimizando múltiples medidas de rendimiento definidas por el usuario. Dado un conjunto de fuentes de datos y un modelo, MODis selecciona e integra las fuentes de datos en un conjunto de datos "skyline", sobre el cual se espera que el modelo tenga el rendimiento deseado en todas las medidas de rendimiento. Formulamos MODis como un transductor de estado finito multiobjetivo y derivamos tres algoritmos factibles para generar conjuntos de datos skyline. Nuestro primer algoritmo adopta una estrategia de "reducción desde lo universal", que comienza con un esquema universal y elimina iterativamente datos poco prometedores. Nuestro segundo algoritmo reduce aún más el costo mediante una estrategia bidireccional que intercala la ampliación y reducción de datos. También introducimos un algoritmo de diversificación para mitigar el sesgo en los conjuntos de datos skyline. Verificamos experimentalmente la eficiencia y efectividad de nuestros algoritmos de descubrimiento de datos skyline y demostramos sus aplicaciones en la optimización de pipelines de ciencia de datos.
English
Preparing high-quality datasets required by various data-driven AI and
machine learning models has become a cornerstone task in data-driven analysis.
Conventional data discovery methods typically integrate datasets towards a
single pre-defined quality measure that may lead to bias for downstream tasks.
This paper introduces MODis, a framework that discovers datasets by optimizing
multiple user-defined, model-performance measures. Given a set of data sources
and a model, MODis selects and integrates data sources into a skyline dataset,
over which the model is expected to have the desired performance in all the
performance measures. We formulate MODis as a multi-goal finite state
transducer, and derive three feasible algorithms to generate skyline datasets.
Our first algorithm adopts a "reduce-from-universal" strategy, that starts with
a universal schema and iteratively prunes unpromising data. Our second
algorithm further reduces the cost with a bi-directional strategy that
interleaves data augmentation and reduction. We also introduce a
diversification algorithm to mitigate the bias in skyline datasets. We
experimentally verify the efficiency and effectiveness of our skyline data
discovery algorithms, and showcase their applications in optimizing data
science pipelines.Summary
AI-Generated Summary