VISion On Request: Efficienza potenziata di VLLM con interazioni visione-linguaggio sparse e dinamicamente selezionate

Abstract

Gli approcci esistenti per migliorare l'efficienza dei Large Vision-Language Models (LVLM) si basano prevalentemente sul concetto di riduzione dei token visivi. Questa strategia, tuttavia, crea un collo di bottiglia informativo che compromette le prestazioni, specialmente in compiti complessi che richiedono una comprensione e un ragionamento di tipo fine-granularità. In questo lavoro, sfidiamo questo paradigma introducendo VISion On Request (VISOR), un metodo che riduce il costo computazionale inferenziale senza scartare informazioni visive. Invece di comprimere l'immagine, VISOR migliora l'efficienza sparsificando l'interazione tra i token immagine e testo. Nello specifico, il modello linguistico processa l'intero set di token visivi ad alta risoluzione attraverso un piccolo numero di livelli di attenzione posizionati strategicamente: il contesto visivo generale è fornito da un efficiente cross-attention tra testo e immagine, mentre alcuni livelli di self-attention, posizionati strategicamente e selezionati dinamicamente, affinano le rappresentazioni visive stesse, abilitando un ragionamento complesso e ad alta risoluzione quando necessario. Basandoci su questo principio, addestriamo prima una singola rete universale su una gamma di budget computazionali variando il numero di livelli di self-attention, per poi introdurre un meccanismo di policy leggero che alloca dinamicamente il calcolo visivo in base alla complessità di ciascun campione. Esperimenti estensivi dimostrano che VISOR riduce drasticamente il costo computazionale, ottenendo risultati pari o superiori allo stato dell'arte su un'ampia suite di benchmark, ed eccellendo in compiti complessi che richiedono una comprensione visiva dettagliata.

English

Existing approaches for improving the efficiency of Large Vision-Language Models (LVLMs) are largely based on the concept of visual token reduction. This approach, however, creates an information bottleneck that impairs performance, especially on challenging tasks that require fine-grained understanding and reasoning. In this work, we challenge this paradigm by introducing VISion On Request (VISOR), a method that reduces inference cost without discarding visual information. Instead of compressing the image, VISOR improves efficiency by sparsifying the interaction between image and text tokens. Specifically, the language model attends to the full set of high-resolution visual tokens through a small, strategically placed set of attention layers: general visual context is provided by efficient cross-attention between text-image, while a few well-placed and dynamically selected self-attention layers refine the visual representations themselves, enabling complex, high-resolution reasoning when needed. Based on this principle, we first train a single universal network on a range of computational budgets by varying the number of self-attention layers, and then introduce a lightweight policy mechanism that dynamically allocates visual computation based on per-sample complexity. Extensive experiments show that VISOR drastically reduces computational cost while matching or exceeding state-of-the-art results across a diverse suite of benchmarks, and excels in challenging tasks that require detailed visual understanding.

VISion On Request: Efficienza potenziata di VLLM con interazioni visione-linguaggio sparse e dinamicamente selezionate

VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions

Abstract

Support