Generación de Conjuntos de Datos de Skyline para Modelos de Ciencia de Datos

Resumen

La preparación de conjuntos de datos de alta calidad, requeridos por diversos modelos de IA y aprendizaje automático basados en datos, se ha convertido en una tarea fundamental en el análisis impulsado por datos. Los métodos convencionales de descubrimiento de datos suelen integrar conjuntos de datos hacia una única medida de calidad predefinida, lo que puede generar sesgos en las tareas posteriores. Este artículo presenta MODis, un marco que descubre conjuntos de datos optimizando múltiples medidas de rendimiento definidas por el usuario. Dado un conjunto de fuentes de datos y un modelo, MODis selecciona e integra las fuentes de datos en un conjunto de datos "skyline", sobre el cual se espera que el modelo tenga el rendimiento deseado en todas las medidas de rendimiento. Formulamos MODis como un transductor de estado finito multiobjetivo y derivamos tres algoritmos factibles para generar conjuntos de datos skyline. Nuestro primer algoritmo adopta una estrategia de "reducción desde lo universal", que comienza con un esquema universal y elimina iterativamente datos poco prometedores. Nuestro segundo algoritmo reduce aún más el costo mediante una estrategia bidireccional que intercala la ampliación y reducción de datos. También introducimos un algoritmo de diversificación para mitigar el sesgo en los conjuntos de datos skyline. Verificamos experimentalmente la eficiencia y efectividad de nuestros algoritmos de descubrimiento de datos skyline y demostramos sus aplicaciones en la optimización de pipelines de ciencia de datos.

English

Preparing high-quality datasets required by various data-driven AI and machine learning models has become a cornerstone task in data-driven analysis. Conventional data discovery methods typically integrate datasets towards a single pre-defined quality measure that may lead to bias for downstream tasks. This paper introduces MODis, a framework that discovers datasets by optimizing multiple user-defined, model-performance measures. Given a set of data sources and a model, MODis selects and integrates data sources into a skyline dataset, over which the model is expected to have the desired performance in all the performance measures. We formulate MODis as a multi-goal finite state transducer, and derive three feasible algorithms to generate skyline datasets. Our first algorithm adopts a "reduce-from-universal" strategy, that starts with a universal schema and iteratively prunes unpromising data. Our second algorithm further reduces the cost with a bi-directional strategy that interleaves data augmentation and reduction. We also introduce a diversification algorithm to mitigate the bias in skyline datasets. We experimentally verify the efficiency and effectiveness of our skyline data discovery algorithms, and showcase their applications in optimizing data science pipelines.