ChatPaper.aiChatPaper

ScalSelect: 効率的な視覚指示チューニングのためのスケーラブルな訓練不要マルチモーダルデータ選択

ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning

February 12, 2026
著者: Changti Wu, Jiahuai Mao, Yuzhuo Miao, Shijie Lian, Bin Yu, Xiaopeng Lin, Cong Huang, Lei Zhang, Kai Chen
cs.AI

要旨

大規模視覚命令チューニング(VIT)は、様々なマルチモーダルタスクにおける視覚言語モデル(VLM)の性能向上のための主要なパラダイムとなっている。しかし、大規模データセットでの学習は、データの冗長性のために計算コストが高く非効率であり、学習効率を改善するためのマルチモーダルデータ選択の必要性が高まっている。VITのための既存のデータ選択手法は、高コストな学習や勾配計算を必要とするか、あるいはプロキシモデルやデータセット、命令に依存しない表現、二次の計算量を要するペアワイズ類似度に依存するトレーニング不要の代替手法が主流であり、拡張性と表現の忠実度が制限されている。本研究では、サンプル数に対して線形時間計算量であり、外部モデルや補助データセットを必要としない、拡張性の高いトレーニング不要のマルチモーダルデータ選択手法であるScalSelectを提案する。ScalSelectはまず、対象VLMにおいて命令トークンが最も注目する視覚特徴を抽出することでサンプル表現を構築し、命令に関連する情報を捕捉する。次に、その表現がデータセット全体の表現の主部分空間を最もよく近似するサンプルを特定し、ペアワイズ比較なしで拡張性の高い重要度スコアリングを可能にする。複数のVLM、データセット、選択予算を用いた広範な実験により、ScalSelectが全データのわずか16%を使用するだけで、全データセットでの学習性能の97.5%以上を達成し、一部の設定では全データ学習を上回る性能さえ示すことを実証した。コードはhttps://github.com/ChangtiWu/ScalSelect で公開されている。
English
Large-scale Visual Instruction Tuning (VIT) has become a key paradigm for advancing the performance of vision-language models (VLMs) across various multimodal tasks. However, training on the large-scale datasets is computationally expensive and inefficient due to redundancy in the data, which motivates the need for multimodal data selection to improve training efficiency. Existing data selection methods for VIT either require costly training or gradient computation. Training-free alternatives often depend on proxy models or datasets, instruction-agnostic representations, and pairwise similarity with quadratic complexity, limiting scalability and representation fidelity. In this work, we propose ScalSelect, a scalable training-free multimodal data selection method with linear-time complexity with respect to the number of samples, eliminating the need for external models or auxiliary datasets. ScalSelect first constructs sample representations by extracting visual features most attended by instruction tokens in the target VLM, capturing instruction-relevant information. It then identifies samples whose representations best approximate the dominant subspace of the full dataset representations, enabling scalable importance scoring without pairwise comparisons. Extensive experiments across multiple VLMs, datasets, and selection budgets demonstrate that ScalSelect achieves over 97.5% of the performance of training on the full dataset using only 16% of the data, and even outperforms full-data training in some settings. The code is available at https://github.com/ChangtiWu/ScalSelect{ScalSelect}.
PDF21February 14, 2026