ChatPaper.aiChatPaper

Hiërarchische Datasetselectie voor Hoogwaardige Gegevensdeling

Hierarchical Dataset Selection for High-Quality Data Sharing

December 11, 2025
Auteurs: Xiaona Zhou, Yingyan Zeng, Ran Jin, Ismini Lourentzou
cs.AI

Samenvatting

Het succes van moderne machine learning hangt af van toegang tot hoogwaardige trainingsgegevens. In veel praktijkscenario's, zoals het verkrijgen van gegevens uit openbare repositories of het delen tussen instellingen, zijn gegevens van nature georganiseerd in afzonderlijke datasets die verschillen in relevantie, kwaliteit en bruikbaarheid. Het selecteren van welke repositories of instellingen moeten worden doorzocht om nuttige datasets te vinden, en welke datasets moeten worden opgenomen in modeltraining, zijn daarom cruciale beslissingen. Toch selecteren de meeste bestaande methoden afzonderlijke steekproeven en behandelen ze alle gegevens als even relevant, waarbij verschillen tussen datasets en hun bronnen worden genegeerd. In dit werk formaliseren we de taak van datasetselectie: het selecteren van volledige datasets uit een grote, heterogene pool om de downstream-prestaties te verbeteren onder beperkte middelen. We stellen Dataset Selection via Hierarchies (DaSH) voor, een datasetselectiemethode die het nut modelleert op zowel dataset- als groepsniveau (bijvoorbeeld collecties, instellingen), waardoor efficiënte generalisatie vanuit beperkte observaties mogelijk wordt. Over twee publieke benchmarks (Digit-Five en DomainNet) heen presteert DaSH state-of-the-art gegevensselectie-baselines met tot 26,2% in nauwkeurigheid, terwijl aanzienlijk minder verkenstappen nodig zijn. Ablatiestudies tonen aan dat DaSH robuust is in settings met beperkte middelen en bij gebrek aan relevante datasets, waardoor het geschikt is voor schaalbare en adaptieve datasetselectie in praktische leerworkflows met meerdere bronnen.
English
The success of modern machine learning hinges on access to high-quality training data. In many real-world scenarios, such as acquiring data from public repositories or sharing across institutions, data is naturally organized into discrete datasets that vary in relevance, quality, and utility. Selecting which repositories or institutions to search for useful datasets, and which datasets to incorporate into model training are therefore critical decisions, yet most existing methods select individual samples and treat all data as equally relevant, ignoring differences between datasets and their sources. In this work, we formalize the task of dataset selection: selecting entire datasets from a large, heterogeneous pool to improve downstream performance under resource constraints. We propose Dataset Selection via Hierarchies (DaSH), a dataset selection method that models utility at both dataset and group (e.g., collections, institutions) levels, enabling efficient generalization from limited observations. Across two public benchmarks (Digit-Five and DomainNet), DaSH outperforms state-of-the-art data selection baselines by up to 26.2% in accuracy, while requiring significantly fewer exploration steps. Ablations show DaSH is robust to low-resource settings and lack of relevant datasets, making it suitable for scalable and adaptive dataset selection in practical multi-source learning workflows.
PDF01December 18, 2025