MMTok: Maximización de Cobertura Multimodal para la Inferencia Eficiente de Modelos de Lenguaje Visual
MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs
August 25, 2025
Autores: Sixun Dong, Juhua Hu, Mian Zhang, Ming Yin, Yanjie Fu, Qi Qian
cs.AI
Resumen
Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) demuestran un rendimiento impresionante en la comprensión de contenido visual mediante instrucciones lingüísticas, convirtiendo la entrada visual en tokens de visión. Sin embargo, la redundancia en los tokens de visión resulta en una eficiencia de inferencia degradada en los VLMs. Aunque se han propuesto muchos algoritmos para reducir el número de tokens de visión, la mayoría aplica únicamente información unimodal (es decir, visión o texto) para la poda y pasa por alto la propiedad multimodal inherente a las tareas de visión-lenguaje. Además, falta un criterio genérico que pueda aplicarse a diferentes modalidades. Para mitigar esta limitación, en este trabajo proponemos aprovechar tanto los tokens de visión como los de texto para seleccionar tokens de visión informativos mediante el criterio de cobertura. Primero, formulamos el problema de selección de subconjuntos como un problema de cobertura máxima. Posteriormente, se optimiza un subconjunto de tokens de visión para cubrir tanto los tokens de texto como el conjunto original de tokens de visión, de manera simultánea. Finalmente, se puede adoptar un agente VLM para mejorar aún más la calidad de los tokens de texto y guiar la poda de visión. El método propuesto, MMTok, se evalúa extensamente en conjuntos de datos de referencia con diferentes VLMs. La comparación ilustra que la información visual y textual es complementaria, y que combinar información multimodal puede superar claramente a la línea base unimodal. Además, bajo el criterio de cobertura máxima en el conjunto de datos POPE, nuestro método logra una aceleración de 1.87x mientras mantiene el 98.7% del rendimiento original en LLaVA-NeXT-13B. Asimismo, con solo cuatro tokens de visión, aún preserva el 87.7% del rendimiento original en LLaVA-1.5-7B. Estos resultados destacan la efectividad de la cobertura en la selección de tokens.
English
Vision-Language Models (VLMs) demonstrate impressive performance in
understanding visual content with language instruction by converting visual
input to vision tokens. However, redundancy in vision tokens results in the
degenerated inference efficiency of VLMs. While many algorithms have been
proposed to reduce the number of vision tokens, most of them apply only
unimodal information (i.e., vision/text) for pruning and ignore the inherent
multimodal property of vision-language tasks. Moreover, it lacks a generic
criterion that can be applied to different modalities. To mitigate this
limitation, in this work, we propose to leverage both vision and text tokens to
select informative vision tokens by the criterion of coverage. We first
formulate the subset selection problem as a maximum coverage problem.
Afterward, a subset of vision tokens is optimized to cover the text tokens and
the original set of vision tokens, simultaneously. Finally, a VLM agent can be
adopted to further improve the quality of text tokens for guiding vision
pruning. The proposed method MMTok is extensively evaluated on benchmark
datasets with different VLMs. The comparison illustrates that vision and text
information are complementary, and combining multimodal information can surpass
the unimodal baseline with a clear margin. Moreover, under the maximum coverage
criterion on the POPE dataset, our method achieves a 1.87x speedup while
maintaining 98.7% of the original performance on LLaVA-NeXT-13B. Furthermore,
with only four vision tokens, it still preserves 87.7% of the original
performance on LLaVA-1.5-7B. These results highlight the effectiveness of
coverage in token selection.