ERGO: Comprensione Visiva Efficiente ad Alta Risoluzione per Modelli Visione-Linguaggio
ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models
September 26, 2025
Autori: Jewon Lee, Wooksu Shin, Seungmin Yang, Ki-Ung Song, DongUk Lim, Jaeyeon Kim, Tae-Ho Kim, Bo-Kyeong Kim
cs.AI
Abstract
L'elaborazione efficiente di immagini ad alta risoluzione è cruciale per le applicazioni reali di visione e linguaggio. Tuttavia, i modelli linguistici e visivi di grandi dimensioni (LVLM) esistenti comportano un sovraccarico computazionale significativo a causa dell'elevato numero di token visivi. Con l'avvento dei modelli "che pensano con le immagini", il ragionamento si estende ora oltre il testo al dominio visivo. Questa capacità motiva la nostra pipeline di ragionamento "da grossolano a fine" in due fasi: prima, un'immagine sottocampionata viene analizzata per identificare le regioni rilevanti per il compito; poi, solo queste regioni vengono ritagliate a piena risoluzione ed elaborate in una fase successiva di ragionamento. Questo approccio riduce il costo computazionale preservando i dettagli visivi fini dove necessario. Una sfida principale consiste nell'inferire quali regioni siano veramente rilevanti per una determinata query. I metodi correlati recenti spesso falliscono nella prima fase dopo il sottocampionamento dell'immagine di input, a causa del ragionamento guidato dalla percezione, dove sono necessarie informazioni visive chiare per un ragionamento efficace. Per affrontare questo problema, proponiamo ERGO (Efficient Reasoning & Guided Observation) che esegue una percezione guidata dal ragionamento, sfruttando il contesto multimodale per determinare dove concentrarsi. Il nostro modello può tenere conto dell'incertezza percettiva, espandendo la regione ritagliata per coprire aree visivamente ambigue per rispondere alle domande. A tal fine, sviluppiamo componenti di ricompensa semplici ma efficaci in un framework di apprendimento per rinforzo per la percezione da grossolano a fine. Su più dataset, il nostro approccio fornisce una maggiore accuratezza rispetto al modello originale e ai metodi competitivi, con una maggiore efficienza. Ad esempio, ERGO supera Qwen2.5-VL-7B sul benchmark V* di 4,7 punti utilizzando solo il 23% dei token visivi, ottenendo un'accelerazione dell'inferenza di 3x. Il codice e i modelli sono disponibili all'indirizzo: https://github.com/nota-github/ERGO.
English
Efficient processing of high-resolution images is crucial for real-world
vision-language applications. However, existing Large Vision-Language Models
(LVLMs) incur substantial computational overhead due to the large number of
vision tokens. With the advent of "thinking with images" models, reasoning now
extends beyond text to the visual domain. This capability motivates our
two-stage "coarse-to-fine" reasoning pipeline: first, a downsampled image is
analyzed to identify task-relevant regions; then, only these regions are
cropped at full resolution and processed in a subsequent reasoning stage. This
approach reduces computational cost while preserving fine-grained visual
details where necessary. A major challenge lies in inferring which regions are
truly relevant to a given query. Recent related methods often fail in the first
stage after input-image downsampling, due to perception-driven reasoning, where
clear visual information is required for effective reasoning. To address this
issue, we propose ERGO (Efficient Reasoning & Guided Observation) that performs
reasoning-driven perception-leveraging multimodal context to determine where to
focus. Our model can account for perceptual uncertainty, expanding the cropped
region to cover visually ambiguous areas for answering questions. To this end,
we develop simple yet effective reward components in a reinforcement learning
framework for coarse-to-fine perception. Across multiple datasets, our approach
delivers higher accuracy than the original model and competitive methods, with
greater efficiency. For instance, ERGO surpasses Qwen2.5-VL-7B on the V*
benchmark by 4.7 points while using only 23% of the vision tokens, achieving a
3x inference speedup. The code and models can be found at:
https://github.com/nota-github/ERGO.