ScalSelect: Seleção Escalável de Dados Multimodais sem Treinamento para um Ajuste Eficiente de Instruções Visuais

Resumo

O Ajuste de Instrução Visual em Larga Escala (VIT) tornou-se um paradigma fundamental para avançar o desempenho de modelos de visão e linguagem (VLMs) em várias tarefas multimodais. No entanto, o treinamento em conjuntos de dados de grande escala é computacionalmente custoso e ineficiente devido à redundância nos dados, o que motiva a necessidade de seleção de dados multimodais para melhorar a eficiência do treinamento. Os métodos de seleção de dados existentes para VIT exigem either treinamento custoso ou cálculo de gradientes. As alternativas *training-free* frequentemente dependem de modelos ou conjuntos de dados substitutos (*proxy*), representações insensíveis à instrução (*instruction-agnostic*) e similaridade par a par com complexidade quadrática, limitando a escalabilidade e a fidelidade da representação. Neste trabalho, propomos o ScalSelect, um método de seleção de dados multimodais escalável e *training-free*, com complexidade de tempo linear em relação ao número de amostras, eliminando a necessidade de modelos externos ou conjuntos de dados auxiliares. O ScalSelect primeiro constrói representações das amostras extraindo as características visuais mais atendidas pelos *tokens* de instrução no VLM alvo, capturando informações relevantes para a instrução. Em seguida, identifica amostras cujas representações melhor aproximam o subespaço dominante das representações do conjunto de dados completo, permitindo uma pontuação de importância escalável sem comparações par a par. Experimentos extensos em múltiplos VLMs, conjuntos de dados e orçamentos de seleção demonstram que o ScalSelect alcança mais de 97,5% do desempenho do treinamento com o conjunto de dados completo usando apenas 16% dos dados, e até supera o treinamento com todos os dados em algumas configurações. O código está disponível em https://github.com/ChangtiWu/ScalSelect{ScalSelect}.

English

Large-scale Visual Instruction Tuning (VIT) has become a key paradigm for advancing the performance of vision-language models (VLMs) across various multimodal tasks. However, training on the large-scale datasets is computationally expensive and inefficient due to redundancy in the data, which motivates the need for multimodal data selection to improve training efficiency. Existing data selection methods for VIT either require costly training or gradient computation. Training-free alternatives often depend on proxy models or datasets, instruction-agnostic representations, and pairwise similarity with quadratic complexity, limiting scalability and representation fidelity. In this work, we propose ScalSelect, a scalable training-free multimodal data selection method with linear-time complexity with respect to the number of samples, eliminating the need for external models or auxiliary datasets. ScalSelect first constructs sample representations by extracting visual features most attended by instruction tokens in the target VLM, capturing instruction-relevant information. It then identifies samples whose representations best approximate the dominant subspace of the full dataset representations, enabling scalable importance scoring without pairwise comparisons. Extensive experiments across multiple VLMs, datasets, and selection budgets demonstrate that ScalSelect achieves over 97.5% of the performance of training on the full dataset using only 16% of the data, and even outperforms full-data training in some settings. The code is available at https://github.com/ChangtiWu/ScalSelect{ScalSelect}.

ScalSelect: Seleção Escalável de Dados Multimodais sem Treinamento para um Ajuste Eficiente de Instruções Visuais

ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning

Resumo

Support