ScalSelect : Sélection de données multimodales évolutive sans apprentissage pour un réglage efficace des instructions visuelles
ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning
February 12, 2026
papers.authors: Changti Wu, Jiahuai Mao, Yuzhuo Miao, Shijie Lian, Bin Yu, Xiaopeng Lin, Cong Huang, Lei Zhang, Kai Chen
cs.AI
papers.abstract
L'ajustement par instruction visuelle à grande échelle (VIT) est devenu un paradigme clé pour améliorer les performances des modèles vision-langage (VLM) sur diverses tâches multimodales. Cependant, l'entraînement sur des jeux de données à grande échelle est coûteux en calcul et inefficace en raison de la redondance des données, ce qui motive la nécessité d'une sélection de données multimodales pour améliorer l'efficacité de l'entraînement. Les méthodes de sélection de données existantes pour le VIT nécessitent soit un entraînement coûteux, soit le calcul de gradients. Les alternatives sans entraînement reposent souvent sur des modèles ou jeux de données proxy, des représentations agnostiques aux instructions, et des similarités par paires avec une complexité quadratique, limitant ainsi l'évolutivité et la fidélité des représentations. Dans ce travail, nous proposons ScalSelect, une méthode de sélection de données multimodales évolutive et sans entraînement, avec une complexité linéaire par rapport au nombre d'échantillons, éliminant le besoin de modèles externes ou de jeux de données auxiliaires. ScalSelect construit d'abord des représentations d'échantillons en extrayant les caractéristiques visuelles les plus sollicitées par les tokens d'instruction dans le VLM cible, capturant ainsi les informations pertinentes pour l'instruction. Il identifie ensuite les échantillons dont les représentations approximent le mieux le sous-espace dominant des représentations du jeu de données complet, permettant une attribution d'importance évolutive sans comparaisons par paires. Des expériences approfondies sur plusieurs VLM, jeux de données et budgets de sélection démontrent que ScalSelect atteint plus de 97,5 % des performances de l'entraînement sur le jeu de données complet en utilisant seulement 16 % des données, et surpasse même l'entraînement sur toutes les données dans certains contextes. Le code est disponible à l'adresse https://github.com/ChangtiWu/ScalSelect.
English
Large-scale Visual Instruction Tuning (VIT) has become a key paradigm for advancing the performance of vision-language models (VLMs) across various multimodal tasks. However, training on the large-scale datasets is computationally expensive and inefficient due to redundancy in the data, which motivates the need for multimodal data selection to improve training efficiency. Existing data selection methods for VIT either require costly training or gradient computation. Training-free alternatives often depend on proxy models or datasets, instruction-agnostic representations, and pairwise similarity with quadratic complexity, limiting scalability and representation fidelity. In this work, we propose ScalSelect, a scalable training-free multimodal data selection method with linear-time complexity with respect to the number of samples, eliminating the need for external models or auxiliary datasets. ScalSelect first constructs sample representations by extracting visual features most attended by instruction tokens in the target VLM, capturing instruction-relevant information. It then identifies samples whose representations best approximate the dominant subspace of the full dataset representations, enabling scalable importance scoring without pairwise comparisons. Extensive experiments across multiple VLMs, datasets, and selection budgets demonstrate that ScalSelect achieves over 97.5% of the performance of training on the full dataset using only 16% of the data, and even outperforms full-data training in some settings. The code is available at https://github.com/ChangtiWu/ScalSelect{ScalSelect}.