고품질 데이터 공유를 위한 계층적 데이터셋 선택
Hierarchical Dataset Selection for High-Quality Data Sharing
December 11, 2025
저자: Xiaona Zhou, Yingyan Zeng, Ran Jin, Ismini Lourentzou
cs.AI
초록
현대 기계 학습의 성공은 고품질 학습 데이터에 대한 접근성에 달려 있습니다. 공공 저장소에서 데이터를 획득하거나 기관 간 공유하는 등 많은 실제 시나리오에서 데이터는 관련성, 품질, 유용성 측면에서 차이를 보이는 개별 데이터셋으로 자연스럽게 구성됩니다. 따라서 유용한 데이터셋을 검색할 저장소나 기관을 선택하고, 모델 학습에 통합할 데이터셋을 선정하는 것은 매우 중요한 결정입니다. 그러나 기존 방법 대부분은 개별 샘플을 선택하며 모든 데이터를 동등하게 관련된 것으로 취급하여 데이터셋 간 차이와 해당 출처의 다양성을 간과합니다. 본 연구에서는 자원 제약 조건 하에서 하류 작업 성능을 향상시키기 위해 이질적인 대규모 풀에서 전체 데이터셋을 선정하는 작업을 체계적으로 정립합니다. 우리는 데이터셋 및 그룹(예: 컬렉션, 기관) 수준에서 유용성을 모델링하여 제한된 관찰만으로도 효율적인 일반화를 가능하게 하는 계층적 데이터셋 선택(DaSH) 방법을 제안합니다. 두 개의 공개 벤치마크(Digit-Five 및 DomainNet)에서 DaSH는 정확도 측면에서 최고 수준의 데이터 선택 기준선을 최대 26.2% 능가하는 동시에 상당히 적은 탐색 단계만을 필요로 합니다. ablation 연구를 통해 DaSH는 낮은 자원 환경 및 관련 데이터셋 부족 상황에서도 강건하게 작동하여 실제 다중 출처 학습 워크플로우에서 확장성과 적응성을 갖춘 데이터셋 선택에 적합함을 입증합니다.
English
The success of modern machine learning hinges on access to high-quality training data. In many real-world scenarios, such as acquiring data from public repositories or sharing across institutions, data is naturally organized into discrete datasets that vary in relevance, quality, and utility. Selecting which repositories or institutions to search for useful datasets, and which datasets to incorporate into model training are therefore critical decisions, yet most existing methods select individual samples and treat all data as equally relevant, ignoring differences between datasets and their sources. In this work, we formalize the task of dataset selection: selecting entire datasets from a large, heterogeneous pool to improve downstream performance under resource constraints. We propose Dataset Selection via Hierarchies (DaSH), a dataset selection method that models utility at both dataset and group (e.g., collections, institutions) levels, enabling efficient generalization from limited observations. Across two public benchmarks (Digit-Five and DomainNet), DaSH outperforms state-of-the-art data selection baselines by up to 26.2% in accuracy, while requiring significantly fewer exploration steps. Ablations show DaSH is robust to low-resource settings and lack of relevant datasets, making it suitable for scalable and adaptive dataset selection in practical multi-source learning workflows.