VISion On Request: Verbeterde VLLM-efficiëntie met spaarzame, dynamisch geselecteerde visie-taalinteracties

Samenvatting

Bestaande benaderingen voor het verbeteren van de efficiëntie van Grote Visueel-Taalmodellen (LVLMs) zijn grotendeels gebaseerd op het concept van visuele tokenreductie. Deze aanpak creëert echter een informatiebottleneck die de prestaties aantast, vooral bij uitdagende taken die fijnmazig begrip en redenering vereisen. In dit werk dagen we dit paradigma uit door VISion On Request (VISOR) te introduceren, een methode die de inferentiekosten verlaagt zonder visuele informatie te verwijderen. In plaats van de afbeelding te comprimeren, verbetert VISOR de efficiëntie door de interactie tussen beeld- en teksttokens te verspreiden. Concreet laat het taalmodel zich richten op de volledige set hoogresolutie visuele tokens via een kleine, strategisch geplaatste set aandachtslagen: algemene visuele context wordt verschaft door efficiënte kruis-aandacht tussen tekst en beeld, terwijl enkele goed geplaatste en dynamisch geselecteerde zelf-aandachtslagen de visuele representaties zelf verfijnen, waardoor complexe, hoogresolutie redenering mogelijk wordt wanneer nodig. Gebaseerd op dit principe trainen we eerst een enkel universeel netwerk voor een reeks computationele budgetten door het aantal zelf-aandachtslagen te variëren, en introduceren we vervolgens een lichtgewicht beleidsmechanisme dat visuele berekening dynamisch toewijst op basis van de complexiteit per voorbeeld. Uitgebreide experimenten tonen aan dat VISOR de computationele kosten drastisch verlaagt terwijl het state-of-the-art resultaten evenaart of overtreft op een diverse reeks benchmarks, en uitblinkt in uitdagende taken die gedetailleerd visueel begrip vereisen.

English

Existing approaches for improving the efficiency of Large Vision-Language Models (LVLMs) are largely based on the concept of visual token reduction. This approach, however, creates an information bottleneck that impairs performance, especially on challenging tasks that require fine-grained understanding and reasoning. In this work, we challenge this paradigm by introducing VISion On Request (VISOR), a method that reduces inference cost without discarding visual information. Instead of compressing the image, VISOR improves efficiency by sparsifying the interaction between image and text tokens. Specifically, the language model attends to the full set of high-resolution visual tokens through a small, strategically placed set of attention layers: general visual context is provided by efficient cross-attention between text-image, while a few well-placed and dynamically selected self-attention layers refine the visual representations themselves, enabling complex, high-resolution reasoning when needed. Based on this principle, we first train a single universal network on a range of computational budgets by varying the number of self-attention layers, and then introduce a lightweight policy mechanism that dynamically allocates visual computation based on per-sample complexity. Extensive experiments show that VISOR drastically reduces computational cost while matching or exceeding state-of-the-art results across a diverse suite of benchmarks, and excels in challenging tasks that require detailed visual understanding.

VISion On Request: Verbeterde VLLM-efficiëntie met spaarzame, dynamisch geselecteerde visie-taalinteracties

VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions

Samenvatting

Support