ScalSelect: Масштабируемый метод селекции мультимодальных данных без обучения для эффективной настройки визуальных инструкций
ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning
February 12, 2026
Авторы: Changti Wu, Jiahuai Mao, Yuzhuo Miao, Shijie Lian, Bin Yu, Xiaopeng Lin, Cong Huang, Lei Zhang, Kai Chen
cs.AI
Аннотация
Крупномасштабная визуальная инструктивная настройка (VIT) стала ключевой парадигмой для повышения производительности моделей «зрение-язык» (VLM) в различных мультимодальных задачах. Однако обучение на больших наборах данных требует значительных вычислительных ресурсов и неэффективно из-за избыточности данных, что обуславливает необходимость мультимодального отбора данных для повышения эффективности обучения. Существующие методы отбора данных для VIT либо требуют затратного обучения или вычисления градиентов, либо являются безарбитражными альтернативами, часто зависящими от прокси-моделей или наборов данных, инструктивно-независимых представлений и попарного сходства с квадратичной сложностью, что ограничивает масштабируемость и достоверность представлений. В данной работе мы предлагаем ScalSelect — масштабируемый метод мультимодального отбора данных без обучения с линейной сложностью по количеству образцов, исключающий необходимость использования внешних моделей или вспомогательных наборов данных. ScalSelect сначала строит представления образцов, извлекая визуальные признаки, на которые больше всего ориентируются токены инструкций в целевой VLM, фиксируя инструктивно-релевантную информацию. Затем метод идентифицирует образцы, чьи представления наилучшим образом аппроксимируют доминирующее подпространство представлений полного набора данных, что позволяет осуществлять масштабируемую оценку важности без попарных сравнений. Многочисленные эксперименты на различных VLM, наборах данных и бюджетах отбора демонстрируют, что ScalSelect достигает более 97,5% производительности обучения на полном наборе данных, используя лишь 16% данных, а в некоторых конфигурациях даже превосходит обучение на всех данных. Код доступен по адресу https://github.com/ChangtiWu/ScalSelect.
English
Large-scale Visual Instruction Tuning (VIT) has become a key paradigm for advancing the performance of vision-language models (VLMs) across various multimodal tasks. However, training on the large-scale datasets is computationally expensive and inefficient due to redundancy in the data, which motivates the need for multimodal data selection to improve training efficiency. Existing data selection methods for VIT either require costly training or gradient computation. Training-free alternatives often depend on proxy models or datasets, instruction-agnostic representations, and pairwise similarity with quadratic complexity, limiting scalability and representation fidelity. In this work, we propose ScalSelect, a scalable training-free multimodal data selection method with linear-time complexity with respect to the number of samples, eliminating the need for external models or auxiliary datasets. ScalSelect first constructs sample representations by extracting visual features most attended by instruction tokens in the target VLM, capturing instruction-relevant information. It then identifies samples whose representations best approximate the dominant subspace of the full dataset representations, enabling scalable importance scoring without pairwise comparisons. Extensive experiments across multiple VLMs, datasets, and selection budgets demonstrate that ScalSelect achieves over 97.5% of the performance of training on the full dataset using only 16% of the data, and even outperforms full-data training in some settings. The code is available at https://github.com/ChangtiWu/ScalSelect{ScalSelect}.