ERGO: Efficiënte visuele interpretatie met hoge resolutie voor visie-taalmodellen
ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models
September 26, 2025
Auteurs: Jewon Lee, Wooksu Shin, Seungmin Yang, Ki-Ung Song, DongUk Lim, Jaeyeon Kim, Tae-Ho Kim, Bo-Kyeong Kim
cs.AI
Samenvatting
Efficiënte verwerking van hoogresolutiebeelden is cruciaal voor real-world visie-taaltoepassingen. Bestaande Large Vision-Language Models (LVLMs) brengen echter aanzienlijke rekenkosten met zich mee vanwege het grote aantal visietokens. Met de opkomst van "denken met beelden"-modellen strekt redeneren zich nu uit tot het visuele domein. Deze mogelijkheid motiveert onze tweefasen "grof-naar-fijn" redeneerpijplijn: eerst wordt een verkleind beeld geanalyseerd om taakrelevante regio's te identificeren; vervolgens worden alleen deze regio's op volledige resolutie uitgesneden en verwerkt in een volgende redeneerfase. Deze aanpak vermindert de rekenkosten terwijl fijnmazige visuele details waar nodig behouden blijven. Een grote uitdaging ligt in het afleiden welke regio's echt relevant zijn voor een gegeven query. Recente gerelateerde methoden falen vaak in de eerste fase na het verkleinen van het invoerbeeld, vanwege perceptiegestuurd redeneren, waarbij duidelijke visuele informatie nodig is voor effectief redeneren. Om dit probleem aan te pakken, stellen we ERGO (Efficient Reasoning & Guided Observation) voor, dat redenering-gestuurde perceptie uitvoert door gebruik te maken van multimodale context om te bepalen waarop gefocust moet worden. Ons model kan rekening houden met perceptuele onzekerheid, waarbij het uitgesneden gebied wordt uitgebreid om visueel ambiguë gebieden te dekken voor het beantwoorden van vragen. Hiertoe ontwikkelen we eenvoudige maar effectieve beloningscomponenten in een reinforcement learning-framework voor grof-naar-fijn perceptie. Over meerdere datasets levert onze aanpak een hogere nauwkeurigheid op dan het oorspronkelijke model en concurrerende methoden, met grotere efficiëntie. Zo overtreft ERGO Qwen2.5-VL-7B op de V*-benchmark met 4,7 punten terwijl slechts 23% van de visietokens wordt gebruikt, wat een 3x versnelling van de inferentie oplevert. De code en modellen zijn te vinden op: https://github.com/nota-github/ERGO.
English
Efficient processing of high-resolution images is crucial for real-world
vision-language applications. However, existing Large Vision-Language Models
(LVLMs) incur substantial computational overhead due to the large number of
vision tokens. With the advent of "thinking with images" models, reasoning now
extends beyond text to the visual domain. This capability motivates our
two-stage "coarse-to-fine" reasoning pipeline: first, a downsampled image is
analyzed to identify task-relevant regions; then, only these regions are
cropped at full resolution and processed in a subsequent reasoning stage. This
approach reduces computational cost while preserving fine-grained visual
details where necessary. A major challenge lies in inferring which regions are
truly relevant to a given query. Recent related methods often fail in the first
stage after input-image downsampling, due to perception-driven reasoning, where
clear visual information is required for effective reasoning. To address this
issue, we propose ERGO (Efficient Reasoning & Guided Observation) that performs
reasoning-driven perception-leveraging multimodal context to determine where to
focus. Our model can account for perceptual uncertainty, expanding the cropped
region to cover visually ambiguous areas for answering questions. To this end,
we develop simple yet effective reward components in a reinforcement learning
framework for coarse-to-fine perception. Across multiple datasets, our approach
delivers higher accuracy than the original model and competitive methods, with
greater efficiency. For instance, ERGO surpasses Qwen2.5-VL-7B on the V*
benchmark by 4.7 points while using only 23% of the vision tokens, achieving a
3x inference speedup. The code and models can be found at:
https://github.com/nota-github/ERGO.