Selección Jerárquica de Conjuntos de Datos para el Intercambio de Datos de Alta Calidad
Hierarchical Dataset Selection for High-Quality Data Sharing
December 11, 2025
Autores: Xiaona Zhou, Yingyan Zeng, Ran Jin, Ismini Lourentzou
cs.AI
Resumen
El éxito del aprendizaje automático moderno depende del acceso a datos de entrenamiento de alta calidad. En muchos escenarios del mundo real, como la adquisición de datos de repositorios públicos o el intercambio entre instituciones, los datos se organizan naturalmente en conjuntos discretos que varían en relevancia, calidad y utilidad. Por lo tanto, seleccionar qué repositorios o instituciones buscar para encontrar conjuntos de datos útiles, y qué conjuntos de datos incorporar al entrenamiento del modelo, son decisiones críticas. Sin embargo, la mayoría de los métodos existentes seleccionan muestras individuales y tratan todos los datos como igualmente relevantes, ignorando las diferencias entre los conjuntos de datos y sus fuentes. En este trabajo, formalizamos la tarea de selección de conjuntos de datos: seleccionar conjuntos de datos completos de un grupo grande y heterogéneo para mejorar el rendimiento posterior bajo restricciones de recursos. Proponemos Dataset Selection via Hierarchies (DaSH), un método de selección de conjuntos de datos que modela la utilidad tanto a nivel de conjunto de datos como de grupo (por ejemplo, colecciones, instituciones), permitiendo una generalización eficiente a partir de observaciones limitadas. En dos puntos de referencia públicos (Digit-Five y DomainNet), DaSH supera a los métodos de selección de datos más avanzados hasta en un 26.2% en precisión, mientras requiere significativamente menos pasos de exploración. Los estudios de ablación muestran que DaSH es robusto en entornos de bajos recursos y ante la falta de conjuntos de datos relevantes, lo que lo hace adecuado para una selección de conjuntos de datos escalable y adaptable en flujos de trabajo prácticos de aprendizaje multi-fuente.
English
The success of modern machine learning hinges on access to high-quality training data. In many real-world scenarios, such as acquiring data from public repositories or sharing across institutions, data is naturally organized into discrete datasets that vary in relevance, quality, and utility. Selecting which repositories or institutions to search for useful datasets, and which datasets to incorporate into model training are therefore critical decisions, yet most existing methods select individual samples and treat all data as equally relevant, ignoring differences between datasets and their sources. In this work, we formalize the task of dataset selection: selecting entire datasets from a large, heterogeneous pool to improve downstream performance under resource constraints. We propose Dataset Selection via Hierarchies (DaSH), a dataset selection method that models utility at both dataset and group (e.g., collections, institutions) levels, enabling efficient generalization from limited observations. Across two public benchmarks (Digit-Five and DomainNet), DaSH outperforms state-of-the-art data selection baselines by up to 26.2% in accuracy, while requiring significantly fewer exploration steps. Ablations show DaSH is robust to low-resource settings and lack of relevant datasets, making it suitable for scalable and adaptive dataset selection in practical multi-source learning workflows.