高品質なデータ共有のための階層的データセット選択
Hierarchical Dataset Selection for High-Quality Data Sharing
December 11, 2025
著者: Xiaona Zhou, Yingyan Zeng, Ran Jin, Ismini Lourentzou
cs.AI
要旨
現代の機械学習の成功は、高品質な訓練データへのアクセスに依存している。公開リポジトリからのデータ取得や機関間でのデータ共有など、現実の多くのシナリオでは、データは関連性、品質、有用性が異なる個別のデータセットとして自然に編成される。したがって、有用なデータセットを検索するリポジトリや機関の選択、およびモデル訓練に組み込むデータセットの選択は極めて重要な意思決定である。しかし、既存手法の多くは個々のサンプルを選択し、すべてのデータを等しく関連するものとして扱い、データセットとそのソース間の差異を無視している。本研究では、リソース制約下で下流タスクの性能向上を図るために、大規模で不均一なデータセット群からデータセット全体を選択する課題を定式化する。我々は、データセットレベルとグループ(例:コレクション、機関)レベルで有用性をモデル化し、限られた観測から効率的に一般化を可能にするデータセット選択手法DaSH(Dataset Selection via Hierarchies)を提案する。2つの公開ベンチマーク(Digit-FiveとDomainNet)における実験では、DaSHは最先端のデータ選択ベースライン手法と比較して最大26.2%の精度向上を達成し、大幅に少ない探索ステップで済むことを示した。アブレーション研究により、DaSHは低リソース環境や関連データセットの不足に対してロバストであり、実用的なマルチソース学習ワークフローにおけるスケーラブルで適応的なデータセット選択に適していることが確認された。
English
The success of modern machine learning hinges on access to high-quality training data. In many real-world scenarios, such as acquiring data from public repositories or sharing across institutions, data is naturally organized into discrete datasets that vary in relevance, quality, and utility. Selecting which repositories or institutions to search for useful datasets, and which datasets to incorporate into model training are therefore critical decisions, yet most existing methods select individual samples and treat all data as equally relevant, ignoring differences between datasets and their sources. In this work, we formalize the task of dataset selection: selecting entire datasets from a large, heterogeneous pool to improve downstream performance under resource constraints. We propose Dataset Selection via Hierarchies (DaSH), a dataset selection method that models utility at both dataset and group (e.g., collections, institutions) levels, enabling efficient generalization from limited observations. Across two public benchmarks (Digit-Five and DomainNet), DaSH outperforms state-of-the-art data selection baselines by up to 26.2% in accuracy, while requiring significantly fewer exploration steps. Ablations show DaSH is robust to low-resource settings and lack of relevant datasets, making it suitable for scalable and adaptive dataset selection in practical multi-source learning workflows.