ScalSelect: 효율적인 시각적 명령어 튜닝을 위한 확장 가능한 학습 없는 멀티모달 데이터 선택
ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning
February 12, 2026
저자: Changti Wu, Jiahuai Mao, Yuzhuo Miao, Shijie Lian, Bin Yu, Xiaopeng Lin, Cong Huang, Lei Zhang, Kai Chen
cs.AI
초록
대규모 시각적 명령어 튜닝(VIT)은 다양한 다중모달 작업에서 시각-언어 모델(VLM)의 성능을 향상시키기 위한 핵심 패러다임으로 자리 잡았습니다. 그러나 대규모 데이터셋에 대한 학습은 데이터의 중복성으로 인해 계산 비용이 많이 들고 비효율적이어서, 학습 효율성을 높이기 위한 다중모달 데이터 선택의 필요성이 대두되고 있습니다. VIT를 위한 기존 데이터 선택 방법은 비용이 많이 드는 학습이나 그래디언트 계산을 필요로 합니다. 학습이 필요 없는 대안들은 주로 프록시 모델이나 데이터셋, 명령어-무관 표현, 그리고 2차 복잡도를 가지는 쌍별 유사도에 의존하여 확장성과 표현 충실도에 한계가 있습니다. 본 연구에서는 샘플 수에 대해 선형 시간 복잡도를 가지며 외부 모델이나 보조 데이터셋이 필요 없는 확장 가능한 학습 무료 다중모달 데이터 선택 방법인 ScalSelect를 제안합니다. ScalSelect는 먼저 대상 VLM에서 명령어 토큰에 가장 많이 주의를 기울이는 시각적 특징을 추출하여 샘플 표현을 구성함으로써 명령어 관련 정보를 포착합니다. 그런 다음, 전체 데이터셋 표현의 주된 부분공간을 가장 잘 근사하는 표현을 가진 샘플을 식별하여 쌍별 비교 없이도 확장 가능한 중요도 점수 매기기를 가능하게 합니다. 여러 VLM, 데이터셋 및 선택 예산에 걸친 폭넓은 실험을 통해 ScalSelect가 전체 데이터의 16%만 사용하여 전체 데이터셋 학습 성능의 97.5% 이상을 달성하며, 일부 설정에서는 전체 데이터 학습을 능가하기도 함을 입증했습니다. 코드는 https://github.com/ChangtiWu/ScalSelect에서 확인할 수 있습니다.
English
Large-scale Visual Instruction Tuning (VIT) has become a key paradigm for advancing the performance of vision-language models (VLMs) across various multimodal tasks. However, training on the large-scale datasets is computationally expensive and inefficient due to redundancy in the data, which motivates the need for multimodal data selection to improve training efficiency. Existing data selection methods for VIT either require costly training or gradient computation. Training-free alternatives often depend on proxy models or datasets, instruction-agnostic representations, and pairwise similarity with quadratic complexity, limiting scalability and representation fidelity. In this work, we propose ScalSelect, a scalable training-free multimodal data selection method with linear-time complexity with respect to the number of samples, eliminating the need for external models or auxiliary datasets. ScalSelect first constructs sample representations by extracting visual features most attended by instruction tokens in the target VLM, capturing instruction-relevant information. It then identifies samples whose representations best approximate the dominant subspace of the full dataset representations, enabling scalable importance scoring without pairwise comparisons. Extensive experiments across multiple VLMs, datasets, and selection budgets demonstrate that ScalSelect achieves over 97.5% of the performance of training on the full dataset using only 16% of the data, and even outperforms full-data training in some settings. The code is available at https://github.com/ChangtiWu/ScalSelect{ScalSelect}.