ScalSelect: Selezione Scalabile di Dati Multimodali Senza Addestramento per un Efficiente Adattamento all'Istruzione Visiva

Abstract

Il Large-scale Visual Instruction Tuning (VIT) è diventato un paradigma chiave per migliorare le prestazioni dei modelli visione-linguaggio (VLM) in varie attività multimodali. Tuttavia, l'addestramento su dataset su larga scala è computazionalmente costoso e inefficiente a causa della ridondanza dei dati, il che motiva la necessità di una selezione dei dati multimodali per migliorare l'efficienza dell'addestramento. I metodi di selezione dati esistenti per il VIT richiedono o un addestramento costoso o il calcolo del gradiente. Le alternative che non richiedono addestramento spesso dipendono da modelli proxy o dataset, da rappresentazioni indipendenti dalle istruzioni e da similarità a coppie con complessità quadratica, limitando la scalabilità e la fedeltà della rappresentazione. In questo lavoro, proponiamo ScalSelect, un metodo di selezione dati multimodale scalabile, che non richiede addestramento e ha una complessità lineare rispetto al numero di campioni, eliminando la necessità di modelli esterni o dataset ausiliari. ScalSelect costruisce prima le rappresentazioni dei campioni estraendo le caratteristiche visive a cui i token di istruzione nel VLM target prestano maggiore attenzione, catturando così le informazioni rilevanti per l'istruzione. Successivamente, identifica i campioni le cui rappresentazioni approssimano al meglio il sottospazio dominante delle rappresentazioni dell'intero dataset, consentendo una valutazione scalabile dell'importanza senza confronti a coppie. Esperimenti estesi su molteplici VLM, dataset e budget di selezione dimostrano che ScalSelect raggiunge oltre il 97,5% delle prestazioni dell'addestramento sull'intero dataset utilizzando solo il 16% dei dati, e in alcuni contesti supera persino l'addestramento con tutti i dati. Il codice è disponibile all'indirizzo https://github.com/ChangtiWu/ScalSelect.

English

Large-scale Visual Instruction Tuning (VIT) has become a key paradigm for advancing the performance of vision-language models (VLMs) across various multimodal tasks. However, training on the large-scale datasets is computationally expensive and inefficient due to redundancy in the data, which motivates the need for multimodal data selection to improve training efficiency. Existing data selection methods for VIT either require costly training or gradient computation. Training-free alternatives often depend on proxy models or datasets, instruction-agnostic representations, and pairwise similarity with quadratic complexity, limiting scalability and representation fidelity. In this work, we propose ScalSelect, a scalable training-free multimodal data selection method with linear-time complexity with respect to the number of samples, eliminating the need for external models or auxiliary datasets. ScalSelect first constructs sample representations by extracting visual features most attended by instruction tokens in the target VLM, capturing instruction-relevant information. It then identifies samples whose representations best approximate the dominant subspace of the full dataset representations, enabling scalable importance scoring without pairwise comparisons. Extensive experiments across multiple VLMs, datasets, and selection budgets demonstrate that ScalSelect achieves over 97.5% of the performance of training on the full dataset using only 16% of the data, and even outperforms full-data training in some settings. The code is available at https://github.com/ChangtiWu/ScalSelect{ScalSelect}.

ScalSelect: Selezione Scalabile di Dati Multimodali Senza Addestramento per un Efficiente Adattamento all'Istruzione Visiva

ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning

Abstract

Support