ERGO: Effizientes hochauflösendes visuelles Verständnis für Vision-Sprache-Modelle
ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models
September 26, 2025
papers.authors: Jewon Lee, Wooksu Shin, Seungmin Yang, Ki-Ung Song, DongUk Lim, Jaeyeon Kim, Tae-Ho Kim, Bo-Kyeong Kim
cs.AI
papers.abstract
Die effiziente Verarbeitung von hochauflösenden Bildern ist entscheidend für reale Vision-Sprache-Anwendungen. Allerdings verursachen bestehende Large Vision-Language Models (LVLMs) erheblichen Rechenaufwand aufgrund der großen Anzahl von Vision-Tokens. Mit dem Aufkommen von „Denken mit Bildern“-Modellen erstreckt sich das Schlussfolgern nun über den Text hinaus in den visuellen Bereich. Diese Fähigkeit motiviert unsere zweistufige „grob-zu-fein“-Schlussfolgerungspipeline: Zuerst wird ein heruntergerechnetes Bild analysiert, um aufgabenrelevante Regionen zu identifizieren; dann werden nur diese Regionen in voller Auflösung zugeschnitten und in einer nachfolgenden Schlussfolgerungsstufe verarbeitet. Dieser Ansatz reduziert die Rechenkosten, während feinkörnige visuelle Details dort erhalten bleiben, wo sie notwendig sind. Eine große Herausforderung besteht darin, zu bestimmen, welche Regionen für eine bestimmte Anfrage wirklich relevant sind. Aktuelle verwandte Methoden scheitern oft in der ersten Stufe nach der Herunterrechnung des Eingabebildes, aufgrund von wahrnehmungsgesteuertem Schlussfolgern, bei dem klare visuelle Informationen für effektives Schlussfolgern erforderlich sind. Um dieses Problem zu lösen, schlagen wir ERGO (Efficient Reasoning & Guided Observation) vor, das wahrnehmungsgesteuertes Schlussfolgern durch multimodalen Kontext nutzt, um zu bestimmen, wo der Fokus liegen soll. Unser Modell kann wahrnehmungsbezogene Unsicherheiten berücksichtigen, indem es die zugeschnittene Region erweitert, um visuell mehrdeutige Bereiche für die Beantwortung von Fragen abzudecken. Zu diesem Zweck entwickeln wir einfache, aber effektive Belohnungskomponenten in einem Reinforcement-Learning-Framework für die grob-zu-fein-Wahrnehmung. Über mehrere Datensätze hinweg liefert unser Ansatz eine höhere Genauigkeit als das ursprüngliche Modell und konkurrierende Methoden, bei größerer Effizienz. Beispielsweise übertrifft ERGO Qwen2.5-VL-7B auf dem V*-Benchmark um 4,7 Punkte, während nur 23 % der Vision-Tokens verwendet werden, was eine 3-fache Beschleunigung der Inferenz ermöglicht. Der Code und die Modelle sind verfügbar unter: https://github.com/nota-github/ERGO.
English
Efficient processing of high-resolution images is crucial for real-world
vision-language applications. However, existing Large Vision-Language Models
(LVLMs) incur substantial computational overhead due to the large number of
vision tokens. With the advent of "thinking with images" models, reasoning now
extends beyond text to the visual domain. This capability motivates our
two-stage "coarse-to-fine" reasoning pipeline: first, a downsampled image is
analyzed to identify task-relevant regions; then, only these regions are
cropped at full resolution and processed in a subsequent reasoning stage. This
approach reduces computational cost while preserving fine-grained visual
details where necessary. A major challenge lies in inferring which regions are
truly relevant to a given query. Recent related methods often fail in the first
stage after input-image downsampling, due to perception-driven reasoning, where
clear visual information is required for effective reasoning. To address this
issue, we propose ERGO (Efficient Reasoning & Guided Observation) that performs
reasoning-driven perception-leveraging multimodal context to determine where to
focus. Our model can account for perceptual uncertainty, expanding the cropped
region to cover visually ambiguous areas for answering questions. To this end,
we develop simple yet effective reward components in a reinforcement learning
framework for coarse-to-fine perception. Across multiple datasets, our approach
delivers higher accuracy than the original model and competitive methods, with
greater efficiency. For instance, ERGO surpasses Qwen2.5-VL-7B on the V*
benchmark by 4.7 points while using only 23% of the vision tokens, achieving a
3x inference speedup. The code and models can be found at:
https://github.com/nota-github/ERGO.