ERGO: Efficiënte visuele interpretatie met hoge resolutie voor visie-taalmodellen

Samenvatting

Efficiënte verwerking van hoogresolutiebeelden is cruciaal voor real-world visie-taaltoepassingen. Bestaande Large Vision-Language Models (LVLMs) brengen echter aanzienlijke rekenkosten met zich mee vanwege het grote aantal visietokens. Met de opkomst van "denken met beelden"-modellen strekt redeneren zich nu uit tot het visuele domein. Deze mogelijkheid motiveert onze tweefasen "grof-naar-fijn" redeneerpijplijn: eerst wordt een verkleind beeld geanalyseerd om taakrelevante regio's te identificeren; vervolgens worden alleen deze regio's op volledige resolutie uitgesneden en verwerkt in een volgende redeneerfase. Deze aanpak vermindert de rekenkosten terwijl fijnmazige visuele details waar nodig behouden blijven. Een grote uitdaging ligt in het afleiden welke regio's echt relevant zijn voor een gegeven query. Recente gerelateerde methoden falen vaak in de eerste fase na het verkleinen van het invoerbeeld, vanwege perceptiegestuurd redeneren, waarbij duidelijke visuele informatie nodig is voor effectief redeneren. Om dit probleem aan te pakken, stellen we ERGO (Efficient Reasoning & Guided Observation) voor, dat redenering-gestuurde perceptie uitvoert door gebruik te maken van multimodale context om te bepalen waarop gefocust moet worden. Ons model kan rekening houden met perceptuele onzekerheid, waarbij het uitgesneden gebied wordt uitgebreid om visueel ambiguë gebieden te dekken voor het beantwoorden van vragen. Hiertoe ontwikkelen we eenvoudige maar effectieve beloningscomponenten in een reinforcement learning-framework voor grof-naar-fijn perceptie. Over meerdere datasets levert onze aanpak een hogere nauwkeurigheid op dan het oorspronkelijke model en concurrerende methoden, met grotere efficiëntie. Zo overtreft ERGO Qwen2.5-VL-7B op de V*-benchmark met 4,7 punten terwijl slechts 23% van de visietokens wordt gebruikt, wat een 3x versnelling van de inferentie oplevert. De code en modellen zijn te vinden op: https://github.com/nota-github/ERGO.

English

Efficient processing of high-resolution images is crucial for real-world vision-language applications. However, existing Large Vision-Language Models (LVLMs) incur substantial computational overhead due to the large number of vision tokens. With the advent of "thinking with images" models, reasoning now extends beyond text to the visual domain. This capability motivates our two-stage "coarse-to-fine" reasoning pipeline: first, a downsampled image is analyzed to identify task-relevant regions; then, only these regions are cropped at full resolution and processed in a subsequent reasoning stage. This approach reduces computational cost while preserving fine-grained visual details where necessary. A major challenge lies in inferring which regions are truly relevant to a given query. Recent related methods often fail in the first stage after input-image downsampling, due to perception-driven reasoning, where clear visual information is required for effective reasoning. To address this issue, we propose ERGO (Efficient Reasoning & Guided Observation) that performs reasoning-driven perception-leveraging multimodal context to determine where to focus. Our model can account for perceptual uncertainty, expanding the cropped region to cover visually ambiguous areas for answering questions. To this end, we develop simple yet effective reward components in a reinforcement learning framework for coarse-to-fine perception. Across multiple datasets, our approach delivers higher accuracy than the original model and competitive methods, with greater efficiency. For instance, ERGO surpasses Qwen2.5-VL-7B on the V* benchmark by 4.7 points while using only 23% of the vision tokens, achieving a 3x inference speedup. The code and models can be found at: https://github.com/nota-github/ERGO.

ERGO: Efficiënte visuele interpretatie met hoge resolutie voor visie-taalmodellen

ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

Samenvatting

Support