ChatPaper.aiChatPaper

ScalSelect: Selección Escalable de Datos Multimodales sin Entrenamiento para un Ajuste Eficiente de Instrucciones Visuales

ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning

February 12, 2026
Autores: Changti Wu, Jiahuai Mao, Yuzhuo Miao, Shijie Lian, Bin Yu, Xiaopeng Lin, Cong Huang, Lei Zhang, Kai Chen
cs.AI

Resumen

El Ajuste de Instrucción Visual a Gran Escala (VIT) se ha convertido en un paradigma clave para mejorar el rendimiento de los modelos de visión y lenguaje (VLM) en diversas tareas multimodales. Sin embargo, el entrenamiento en conjuntos de datos a gran escala es computacionalmente costoso e ineficiente debido a la redundancia en los datos, lo que motiva la necesidad de selección de datos multimodales para mejorar la eficiencia del entrenamiento. Los métodos de selección de datos existentes para VIT requieren un entrenamiento costoso o el cálculo de gradientes. Las alternativas que no requieren entrenamiento a menudo dependen de modelos o conjuntos de datos proxy, representaciones independientes de la instrucción y similitud por pares con complejidad cuadrática, lo que limita la escalabilidad y la fidelidad de la representación. En este trabajo, proponemos ScalSelect, un método de selección de datos multimodales escalable y sin entrenamiento, con una complejidad de tiempo lineal con respecto al número de muestras, que elimina la necesidad de modelos externos o conjuntos de datos auxiliares. ScalSelect primero construye representaciones de las muestras extrayendo las características visuales a las que los tokens de instrucción del VLM objetivo prestan mayor atención, capturando así información relevante para la instrucción. Luego identifica las muestras cuyas representaciones mejor aproximan el subespacio dominante de las representaciones del conjunto de datos completo, permitiendo una puntuación de importancia escalable sin comparaciones por pares. Experimentos exhaustivos en múltiples VLM, conjuntos de datos y presupuestos de selección demuestran que ScalSelect logra más del 97.5% del rendimiento del entrenamiento con el conjunto de datos completo utilizando solo el 16% de los datos, e incluso supera al entrenamiento con todos los datos en algunos escenarios. El código está disponible en https://github.com/ChangtiWu/ScalSelect.
English
Large-scale Visual Instruction Tuning (VIT) has become a key paradigm for advancing the performance of vision-language models (VLMs) across various multimodal tasks. However, training on the large-scale datasets is computationally expensive and inefficient due to redundancy in the data, which motivates the need for multimodal data selection to improve training efficiency. Existing data selection methods for VIT either require costly training or gradient computation. Training-free alternatives often depend on proxy models or datasets, instruction-agnostic representations, and pairwise similarity with quadratic complexity, limiting scalability and representation fidelity. In this work, we propose ScalSelect, a scalable training-free multimodal data selection method with linear-time complexity with respect to the number of samples, eliminating the need for external models or auxiliary datasets. ScalSelect first constructs sample representations by extracting visual features most attended by instruction tokens in the target VLM, capturing instruction-relevant information. It then identifies samples whose representations best approximate the dominant subspace of the full dataset representations, enabling scalable importance scoring without pairwise comparisons. Extensive experiments across multiple VLMs, datasets, and selection budgets demonstrate that ScalSelect achieves over 97.5% of the performance of training on the full dataset using only 16% of the data, and even outperforms full-data training in some settings. The code is available at https://github.com/ChangtiWu/ScalSelect{ScalSelect}.
PDF21February 14, 2026