MMTok: Maximización de Cobertura Multimodal para la Inferencia Eficiente de Modelos de Lenguaje Visual

Resumen

Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) demuestran un rendimiento impresionante en la comprensión de contenido visual mediante instrucciones lingüísticas, convirtiendo la entrada visual en tokens de visión. Sin embargo, la redundancia en los tokens de visión resulta en una eficiencia de inferencia degradada en los VLMs. Aunque se han propuesto muchos algoritmos para reducir el número de tokens de visión, la mayoría aplica únicamente información unimodal (es decir, visión o texto) para la poda y pasa por alto la propiedad multimodal inherente a las tareas de visión-lenguaje. Además, falta un criterio genérico que pueda aplicarse a diferentes modalidades. Para mitigar esta limitación, en este trabajo proponemos aprovechar tanto los tokens de visión como los de texto para seleccionar tokens de visión informativos mediante el criterio de cobertura. Primero, formulamos el problema de selección de subconjuntos como un problema de cobertura máxima. Posteriormente, se optimiza un subconjunto de tokens de visión para cubrir tanto los tokens de texto como el conjunto original de tokens de visión, de manera simultánea. Finalmente, se puede adoptar un agente VLM para mejorar aún más la calidad de los tokens de texto y guiar la poda de visión. El método propuesto, MMTok, se evalúa extensamente en conjuntos de datos de referencia con diferentes VLMs. La comparación ilustra que la información visual y textual es complementaria, y que combinar información multimodal puede superar claramente a la línea base unimodal. Además, bajo el criterio de cobertura máxima en el conjunto de datos POPE, nuestro método logra una aceleración de 1.87x mientras mantiene el 98.7% del rendimiento original en LLaVA-NeXT-13B. Asimismo, con solo cuatro tokens de visión, aún preserva el 87.7% del rendimiento original en LLaVA-1.5-7B. Estos resultados destacan la efectividad de la cobertura en la selección de tokens.

English

Vision-Language Models (VLMs) demonstrate impressive performance in understanding visual content with language instruction by converting visual input to vision tokens. However, redundancy in vision tokens results in the degenerated inference efficiency of VLMs. While many algorithms have been proposed to reduce the number of vision tokens, most of them apply only unimodal information (i.e., vision/text) for pruning and ignore the inherent multimodal property of vision-language tasks. Moreover, it lacks a generic criterion that can be applied to different modalities. To mitigate this limitation, in this work, we propose to leverage both vision and text tokens to select informative vision tokens by the criterion of coverage. We first formulate the subset selection problem as a maximum coverage problem. Afterward, a subset of vision tokens is optimized to cover the text tokens and the original set of vision tokens, simultaneously. Finally, a VLM agent can be adopted to further improve the quality of text tokens for guiding vision pruning. The proposed method MMTok is extensively evaluated on benchmark datasets with different VLMs. The comparison illustrates that vision and text information are complementary, and combining multimodal information can surpass the unimodal baseline with a clear margin. Moreover, under the maximum coverage criterion on the POPE dataset, our method achieves a 1.87x speedup while maintaining 98.7% of the original performance on LLaVA-NeXT-13B. Furthermore, with only four vision tokens, it still preserves 87.7% of the original performance on LLaVA-1.5-7B. These results highlight the effectiveness of coverage in token selection.

MMTok: Maximización de Cobertura Multimodal para la Inferencia Eficiente de Modelos de Lenguaje Visual

MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

Resumen

Support