データサイエンスモデルのためのスカイラインデータセットの生成
Generating Skyline Datasets for Data Science Models
February 16, 2025
著者: Mengying Wang, Hanchao Ma, Yiyang Bian, Yangxin Fan, Yinghui Wu
cs.AI
要旨
多様なデータ駆動型AIおよび機械学習モデルに必要とされる高品質なデータセットの準備は、データ駆動型分析における基盤的なタスクとなっています。従来のデータ発見手法は、通常、単一の事前定義された品質指標に向けてデータセットを統合するため、下流タスクにバイアスをもたらす可能性があります。本論文では、複数のユーザー定義のモデル性能指標を最適化することでデータセットを発見するフレームワーク、MODisを紹介します。与えられたデータソースのセットとモデルに対して、MODisはデータソースを選択し、スカイラインデータセットに統合します。このデータセット上で、モデルはすべての性能指標において所望の性能を発揮することが期待されます。MODisをマルチゴール有限状態トランスデューサとして定式化し、スカイラインデータセットを生成するための3つの実現可能なアルゴリズムを導出します。最初のアルゴリズムは「ユニバーサルスキーマからの削減」戦略を採用し、ユニバーサルスキーマから始めて、有望でないデータを反復的に刈り込みます。2番目のアルゴリズムは、データ拡張と削減を交互に行う双方向戦略により、コストをさらに削減します。また、スカイラインデータセットのバイアスを軽減するための多様化アルゴリズムも導入します。私たちは、スカイラインデータ発見アルゴリズムの効率性と有効性を実験的に検証し、データサイエンスパイプラインの最適化におけるその応用例を紹介します。
English
Preparing high-quality datasets required by various data-driven AI and
machine learning models has become a cornerstone task in data-driven analysis.
Conventional data discovery methods typically integrate datasets towards a
single pre-defined quality measure that may lead to bias for downstream tasks.
This paper introduces MODis, a framework that discovers datasets by optimizing
multiple user-defined, model-performance measures. Given a set of data sources
and a model, MODis selects and integrates data sources into a skyline dataset,
over which the model is expected to have the desired performance in all the
performance measures. We formulate MODis as a multi-goal finite state
transducer, and derive three feasible algorithms to generate skyline datasets.
Our first algorithm adopts a "reduce-from-universal" strategy, that starts with
a universal schema and iteratively prunes unpromising data. Our second
algorithm further reduces the cost with a bi-directional strategy that
interleaves data augmentation and reduction. We also introduce a
diversification algorithm to mitigate the bias in skyline datasets. We
experimentally verify the efficiency and effectiveness of our skyline data
discovery algorithms, and showcase their applications in optimizing data
science pipelines.Summary
AI-Generated Summary