ScalSelect: Skalierbare trainingsfreie multimodale Datenauswahl für effizientes visuelles Instruktionstuning
ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning
February 12, 2026
papers.authors: Changti Wu, Jiahuai Mao, Yuzhuo Miao, Shijie Lian, Bin Yu, Xiaopeng Lin, Cong Huang, Lei Zhang, Kai Chen
cs.AI
papers.abstract
Großmaßstäbliches Visuelles Instruktions-Tuning (VIT) hat sich zu einem Schlüsselparadigma für die Verbesserung der Leistung von Vision-Language-Modellen (VLMs) bei verschiedenen multimodalen Aufgaben entwickelt. Die Verwendung großer Datensätze für das Training ist jedoch rechenintensiv und ineffizient aufgrund von Redundanzen in den Daten, was die Notwendigkeit multimodaler Datenauswahl zur Steigerung der Trainingseffizienz motiviert. Bestehende Datenauswahlmethoden für VIT erfordern entweder kostspieliges Training oder Gradientenberechnung. Trainingsfreie Alternativen basieren häufig auf Stellvertretermodellen oder -datensätzen, instruktionsagnostischen Repräsentationen und paarweisen Ähnlichkeitsvergleichen mit quadratischer Komplexität, was die Skalierbarkeit und Repräsentationsqualität einschränkt. In dieser Arbeit stellen wir ScalSelect vor, eine skalierbare, trainingsfreie multimodale Datenauswahlmethode mit linearer Zeitkomplexität in Bezug auf die Anzahl der Stichproben, die externe Modelle oder Hilfsdatensätze überflüssig macht. ScalSelect konstruiert zunächst Stichprobenrepräsentationen, indem visuelle Merkmale extrahiert werden, die von Instruktionstokens im Ziel-VLM am stärksten beachtet werden, und erfasst so instruktionsrelevante Informationen. Anschließend identifiziert es Stichproben, deren Repräsentationen den dominanten Unterraum der Gesamtdatensatzrepräsentationen am besten approximieren, was eine skalierbare Bedeutungsskorung ohne paarweise Vergleiche ermöglicht. Umfangreiche Experimente mit mehreren VLMs, Datensätzen und Auswahlbudgets zeigen, dass ScalSelect mit nur 16% der Daten über 97,5% der Leistung des Trainings mit dem vollständigen Datensatz erreicht und in einigen Konfigurationen sogar das Training mit allen Daten übertrifft. Der Code ist verfügbar unter https://github.com/ChangtiWu/ScalSelect{ScalSelect}.
English
Large-scale Visual Instruction Tuning (VIT) has become a key paradigm for advancing the performance of vision-language models (VLMs) across various multimodal tasks. However, training on the large-scale datasets is computationally expensive and inefficient due to redundancy in the data, which motivates the need for multimodal data selection to improve training efficiency. Existing data selection methods for VIT either require costly training or gradient computation. Training-free alternatives often depend on proxy models or datasets, instruction-agnostic representations, and pairwise similarity with quadratic complexity, limiting scalability and representation fidelity. In this work, we propose ScalSelect, a scalable training-free multimodal data selection method with linear-time complexity with respect to the number of samples, eliminating the need for external models or auxiliary datasets. ScalSelect first constructs sample representations by extracting visual features most attended by instruction tokens in the target VLM, capturing instruction-relevant information. It then identifies samples whose representations best approximate the dominant subspace of the full dataset representations, enabling scalable importance scoring without pairwise comparisons. Extensive experiments across multiple VLMs, datasets, and selection budgets demonstrate that ScalSelect achieves over 97.5% of the performance of training on the full dataset using only 16% of the data, and even outperforms full-data training in some settings. The code is available at https://github.com/ChangtiWu/ScalSelect{ScalSelect}.