Selezione Gerarchica dei Dataset per la Condivisione di Dati di Alta Qualità
Hierarchical Dataset Selection for High-Quality Data Sharing
December 11, 2025
Autori: Xiaona Zhou, Yingyan Zeng, Ran Jin, Ismini Lourentzou
cs.AI
Abstract
Il successo del moderno machine learning dipende dall'accesso a dati di addestramento di alta qualità. In molti scenari reali, come l'acquisizione di dati da repository pubblici o la condivisione tra istituzioni, i dati sono naturalmente organizzati in dataset discreti che variano in rilevanza, qualità e utilità. Selezionare quali repository o istituzioni esplorare per trovare dataset utili, e quali dataset incorporare nell'addestramento del modello, sono quindi decisioni critiche. Tuttavia, la maggior parte dei metodi esistenti seleziona singoli campioni e tratta tutti i dati come ugualmente rilevanti, ignorando le differenze tra i dataset e le loro fonti. In questo lavoro, formalizziamo il compito della selezione di dataset: selezionare interi dataset da un ampio pool eterogeneo per migliorare le prestazioni a valle sotto vincoli di risorse. Proponiamo Dataset Selection via Hierarchies (DaSH), un metodo di selezione che modella l'utilità sia a livello di dataset che di gruppo (ad esempio, collezioni, istituzioni), consentendo una generalizzazione efficiente da osservazioni limitate. Su due benchmark pubblici (Digit-Five e DomainNet), DaSH supera i metodi baseline all'avanguardia per la selezione dei dati fino al 26,2% in accuratezza, richiedendo significativamente meno passi di esplorazione. Le ablation study dimostrano che DaSH è robusto in contesti a risorse limitate e in assenza di dataset rilevanti, rendendolo adatto per una selezione di dataset scalabile e adattiva nei flussi di lavoro pratici di apprendimento multi-sorgente.
English
The success of modern machine learning hinges on access to high-quality training data. In many real-world scenarios, such as acquiring data from public repositories or sharing across institutions, data is naturally organized into discrete datasets that vary in relevance, quality, and utility. Selecting which repositories or institutions to search for useful datasets, and which datasets to incorporate into model training are therefore critical decisions, yet most existing methods select individual samples and treat all data as equally relevant, ignoring differences between datasets and their sources. In this work, we formalize the task of dataset selection: selecting entire datasets from a large, heterogeneous pool to improve downstream performance under resource constraints. We propose Dataset Selection via Hierarchies (DaSH), a dataset selection method that models utility at both dataset and group (e.g., collections, institutions) levels, enabling efficient generalization from limited observations. Across two public benchmarks (Digit-Five and DomainNet), DaSH outperforms state-of-the-art data selection baselines by up to 26.2% in accuracy, while requiring significantly fewer exploration steps. Ablations show DaSH is robust to low-resource settings and lack of relevant datasets, making it suitable for scalable and adaptive dataset selection in practical multi-source learning workflows.