Генерация наборов данных Skyline для моделей науки о данных
Generating Skyline Datasets for Data Science Models
February 16, 2025
Авторы: Mengying Wang, Hanchao Ma, Yiyang Bian, Yangxin Fan, Yinghui Wu
cs.AI
Аннотация
Подготовка высококачественных наборов данных, необходимых для различных моделей искусственного интеллекта и машинного обучения, основанных на данных, стала ключевой задачей в аналитике, ориентированной на данные. Традиционные методы поиска данных обычно интегрируют наборы данных в соответствии с единой предопределенной метрикой качества, что может привести к смещению в последующих задачах. В данной статье представлен MODis — фреймворк, который обнаруживает наборы данных, оптимизируя несколько пользовательских метрик производительности модели. Имея набор источников данных и модель, MODis выбирает и интегрирует источники данных в набор данных, называемый "skyline", на котором модель должна демонстрировать желаемую производительность по всем метрикам. Мы формулируем MODis как конечный преобразователь с несколькими целями и выводим три реализуемых алгоритма для генерации наборов данных skyline. Наш первый алгоритм использует стратегию "сокращение от универсального", начиная с универсальной схемы и последовательно удаляя неперспективные данные. Второй алгоритм дополнительно снижает затраты с помощью двунаправленной стратегии, чередующей расширение и сокращение данных. Мы также представляем алгоритм диверсификации для уменьшения смещения в наборах данных skyline. Экспериментально подтверждаем эффективность и результативность наших алгоритмов поиска данных skyline и демонстрируем их применение в оптимизации процессов анализа данных.
English
Preparing high-quality datasets required by various data-driven AI and
machine learning models has become a cornerstone task in data-driven analysis.
Conventional data discovery methods typically integrate datasets towards a
single pre-defined quality measure that may lead to bias for downstream tasks.
This paper introduces MODis, a framework that discovers datasets by optimizing
multiple user-defined, model-performance measures. Given a set of data sources
and a model, MODis selects and integrates data sources into a skyline dataset,
over which the model is expected to have the desired performance in all the
performance measures. We formulate MODis as a multi-goal finite state
transducer, and derive three feasible algorithms to generate skyline datasets.
Our first algorithm adopts a "reduce-from-universal" strategy, that starts with
a universal schema and iteratively prunes unpromising data. Our second
algorithm further reduces the cost with a bi-directional strategy that
interleaves data augmentation and reduction. We also introduce a
diversification algorithm to mitigate the bias in skyline datasets. We
experimentally verify the efficiency and effectiveness of our skyline data
discovery algorithms, and showcase their applications in optimizing data
science pipelines.