Seleção Hierárquica de Conjuntos de Dados para Partilha de Dados de Alta Qualidade

Resumo

O sucesso do aprendizado de máquina moderno depende do acesso a dados de treinamento de alta qualidade. Em muitos cenários do mundo real, como a aquisição de dados de repositórios públicos ou o compartilhamento entre instituições, os dados são naturalmente organizados em conjuntos discretos que variam em relevância, qualidade e utilidade. Selecionar quais repositórios ou instituições pesquisar para encontrar conjuntos de dados úteis e quais conjuntos de dados incorporar ao treinamento do modelo são, portanto, decisões críticas. No entanto, a maioria dos métodos existentes seleciona amostras individuais e trata todos os dados como igualmente relevantes, ignorando as diferenças entre conjuntos de dados e suas fontes. Neste trabalho, formalizamos a tarefa de seleção de conjuntos de dados: selecionar conjuntos de dados inteiros de um grande pool heterogêneo para melhorar o desempenho subsequente sob restrições de recursos. Propomos a Seleção de Conjuntos de dados via Hierarquias (DaSH), um método de seleção que modela a utilidade tanto no nível do conjunto de dados quanto no nível do grupo (por exemplo, coleções, instituições), permitindo uma generalização eficiente a partir de observações limitadas. Em dois benchmarks públicos (Digit-Five e DomainNet), o DaSH supera os métodos de seleção de dados state-of-the-art em até 26,2% em precisão, exigindo significativamente menos etapas de exploração. Ablações mostram que o DaSH é robusto em configurações de baixos recursos e na ausência de conjuntos de dados relevantes, tornando-o adequado para seleção de conjuntos de dados escalável e adaptável em fluxos de trabalho práticos de aprendizado de múltiplas fontes.

English

The success of modern machine learning hinges on access to high-quality training data. In many real-world scenarios, such as acquiring data from public repositories or sharing across institutions, data is naturally organized into discrete datasets that vary in relevance, quality, and utility. Selecting which repositories or institutions to search for useful datasets, and which datasets to incorporate into model training are therefore critical decisions, yet most existing methods select individual samples and treat all data as equally relevant, ignoring differences between datasets and their sources. In this work, we formalize the task of dataset selection: selecting entire datasets from a large, heterogeneous pool to improve downstream performance under resource constraints. We propose Dataset Selection via Hierarchies (DaSH), a dataset selection method that models utility at both dataset and group (e.g., collections, institutions) levels, enabling efficient generalization from limited observations. Across two public benchmarks (Digit-Five and DomainNet), DaSH outperforms state-of-the-art data selection baselines by up to 26.2% in accuracy, while requiring significantly fewer exploration steps. Ablations show DaSH is robust to low-resource settings and lack of relevant datasets, making it suitable for scalable and adaptive dataset selection in practical multi-source learning workflows.