ChatPaper.aiChatPaper

Hierarchische Datensatzauswahl für hochwertigen Datenaustausch

Hierarchical Dataset Selection for High-Quality Data Sharing

December 11, 2025
papers.authors: Xiaona Zhou, Yingyan Zeng, Ran Jin, Ismini Lourentzou
cs.AI

papers.abstract

Der Erfolg modernen maschinellen Lernens hängt vom Zugang zu hochwertigen Trainingsdaten ab. In vielen realen Szenarien – wie der Beschaffung von Daten aus öffentlichen Repositorien oder der datenübergreifenden Zusammenarbeit zwischen Institutionen – sind Daten natürlicherweise in diskrete Datensätze unterteilt, die sich in Relevanz, Qualität und Nutzen unterscheiden. Die Auswahl, welche Repositorien oder Institutionen nach nützlichen Datensätzen durchsucht werden sollen und welche Datensätze in das Modelltraining integriert werden sollen, sind daher entscheidende Entscheidungen. Dennoch wählen die meisten bestehenden Methoden einzelne Stichproben aus und behandeln alle Daten als gleich relevant, wobei sie Unterschiede zwischen Datensätzen und ihren Quellen ignorieren. In dieser Arbeit formalisieren wir die Aufgabe der Datensatzauswahl: die Selektion vollständiger Datensätze aus einem großen, heterogenen Pool, um die nachgelagerte Leistung unter Ressourcenbeschränkungen zu verbessern. Wir schlagen Dataset Selection via Hierarchies (DaSH) vor, eine Datensatzauswahlmethode, die den Nutzen sowohl auf Datensatz- als auch auf Gruppenebene (z.B. Sammlungen, Institutionen) modelliert und eine effiziente Generalisierung aus begrenzten Beobachtungen ermöglicht. In zwei öffentlichen Benchmarks (Digit-Five und DomainNet) übertrifft DaSH state-of-the-art Datenauswahl-Baselines um bis zu 26,2 % in der Genauigkeit, benötigt dabei aber deutlich weniger Erkundungsschritte. Ablationstudien zeigen, dass DaSH robust gegenüber ressourcenarmen Umgebungen und dem Fehlen relevanter Datensätze ist, was es für skalierbare und adaptive Datensatzauswahl in praktischen Multi-Source-Lernworkflows geeignet macht.
English
The success of modern machine learning hinges on access to high-quality training data. In many real-world scenarios, such as acquiring data from public repositories or sharing across institutions, data is naturally organized into discrete datasets that vary in relevance, quality, and utility. Selecting which repositories or institutions to search for useful datasets, and which datasets to incorporate into model training are therefore critical decisions, yet most existing methods select individual samples and treat all data as equally relevant, ignoring differences between datasets and their sources. In this work, we formalize the task of dataset selection: selecting entire datasets from a large, heterogeneous pool to improve downstream performance under resource constraints. We propose Dataset Selection via Hierarchies (DaSH), a dataset selection method that models utility at both dataset and group (e.g., collections, institutions) levels, enabling efficient generalization from limited observations. Across two public benchmarks (Digit-Five and DomainNet), DaSH outperforms state-of-the-art data selection baselines by up to 26.2% in accuracy, while requiring significantly fewer exploration steps. Ablations show DaSH is robust to low-resource settings and lack of relevant datasets, making it suitable for scalable and adaptive dataset selection in practical multi-source learning workflows.
PDF21February 7, 2026