VISión Bajo Demanda: Mejora de la eficiencia de VLLM con interacciones visión-lenguaje dispersas y seleccionadas dinámicamente

Resumen

Los enfoques existentes para mejorar la eficiencia de los Grandes Modelos de Visión y Lenguaje (LVLM) se basan en gran medida en el concepto de reducción de tokens visuales. Sin embargo, este enfoque crea un cuello de botella de información que perjudica el rendimiento, especialmente en tareas complejas que requieren una comprensión y razonamiento de grano fino. En este trabajo, desafiamos este paradigma presentando VISion On Request (VISOR), un método que reduce el costo de inferencia sin descartar información visual. En lugar de comprimir la imagen, VISOR mejora la eficiencia mediante la esparsificación de la interacción entre los tokens de imagen y texto. Específicamente, el modelo de lenguaje atiende al conjunto completo de tokens visuales de alta resolución a través de un pequeño conjunto de capas de atención colocadas estratégicamente: el contexto visual general lo proporciona una atención cruzada eficiente entre texto e imagen, mientras que unas pocas capas de auto-atención, bien situadas y seleccionadas dinámicamente, refinan las propias representaciones visuales, permitiendo un razonamiento complejo y de alta resolución cuando es necesario. Basándonos en este principio, primero entrenamos una única red universal en un rango de presupuestos computacionales variando el número de capas de auto-atención, y luego introducimos un mecanismo de política ligero que asigna dinámicamente el cómputo visual en función de la complejidad de cada muestra. Experimentos exhaustivos demuestran que VISOR reduce drásticamente el coste computacional a la vez que iguala o supera los resultados de vanguardia en un conjunto diverso de benchmarks, y sobresale en tareas desafiantes que requieren una comprensión visual detallada.

English

Existing approaches for improving the efficiency of Large Vision-Language Models (LVLMs) are largely based on the concept of visual token reduction. This approach, however, creates an information bottleneck that impairs performance, especially on challenging tasks that require fine-grained understanding and reasoning. In this work, we challenge this paradigm by introducing VISion On Request (VISOR), a method that reduces inference cost without discarding visual information. Instead of compressing the image, VISOR improves efficiency by sparsifying the interaction between image and text tokens. Specifically, the language model attends to the full set of high-resolution visual tokens through a small, strategically placed set of attention layers: general visual context is provided by efficient cross-attention between text-image, while a few well-placed and dynamically selected self-attention layers refine the visual representations themselves, enabling complex, high-resolution reasoning when needed. Based on this principle, we first train a single universal network on a range of computational budgets by varying the number of self-attention layers, and then introduce a lightweight policy mechanism that dynamically allocates visual computation based on per-sample complexity. Extensive experiments show that VISOR drastically reduces computational cost while matching or exceeding state-of-the-art results across a diverse suite of benchmarks, and excels in challenging tasks that require detailed visual understanding.

VISión Bajo Demanda: Mejora de la eficiencia de VLLM con interacciones visión-lenguaje dispersas y seleccionadas dinámicamente

VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions

Resumen

Support