ChatPaper.aiChatPaper

ERGO: Comprensión Visual Eficiente de Alta Resolución para Modelos de Visión-Lenguaje

ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

September 26, 2025
Autores: Jewon Lee, Wooksu Shin, Seungmin Yang, Ki-Ung Song, DongUk Lim, Jaeyeon Kim, Tae-Ho Kim, Bo-Kyeong Kim
cs.AI

Resumen

El procesamiento eficiente de imágenes de alta resolución es crucial para aplicaciones de visión y lenguaje en el mundo real. Sin embargo, los modelos de visión y lenguaje a gran escala (LVLMs, por sus siglas en inglés) existentes incurren en un costo computacional sustancial debido al gran número de tokens visuales. Con el surgimiento de los modelos de "pensar con imágenes", el razonamiento ahora se extiende más allá del texto al dominio visual. Esta capacidad motiva nuestra canalización de razonamiento de dos etapas "de grueso a fino": primero, se analiza una imagen reducida en resolución para identificar regiones relevantes para la tarea; luego, solo estas regiones se recortan a resolución completa y se procesan en una etapa posterior de razonamiento. Este enfoque reduce el costo computacional mientras preserva detalles visuales finos donde sea necesario. Un desafío importante radica en inferir qué regiones son verdaderamente relevantes para una consulta dada. Métodos relacionados recientes a menudo fallan en la primera etapa después de la reducción de resolución de la imagen de entrada, debido al razonamiento basado en la percepción, donde se requiere información visual clara para un razonamiento efectivo. Para abordar este problema, proponemos ERGO (Razonamiento Eficiente y Observación Guiada, por sus siglas en inglés), que realiza una percepción impulsada por el razonamiento, aprovechando el contexto multimodal para determinar dónde enfocarse. Nuestro modelo puede tener en cuenta la incertidumbre perceptual, expandiendo la región recortada para cubrir áreas visualmente ambiguas al responder preguntas. Para ello, desarrollamos componentes de recompensa simples pero efectivos en un marco de aprendizaje por refuerzo para la percepción de grueso a fino. En múltiples conjuntos de datos, nuestro enfoque ofrece una mayor precisión que el modelo original y métodos competitivos, con mayor eficiencia. Por ejemplo, ERGO supera a Qwen2.5-VL-7B en el punto de referencia V* por 4.7 puntos mientras utiliza solo el 23% de los tokens visuales, logrando una aceleración de inferencia de 3x. El código y los modelos se pueden encontrar en: https://github.com/nota-github/ERGO.
English
Efficient processing of high-resolution images is crucial for real-world vision-language applications. However, existing Large Vision-Language Models (LVLMs) incur substantial computational overhead due to the large number of vision tokens. With the advent of "thinking with images" models, reasoning now extends beyond text to the visual domain. This capability motivates our two-stage "coarse-to-fine" reasoning pipeline: first, a downsampled image is analyzed to identify task-relevant regions; then, only these regions are cropped at full resolution and processed in a subsequent reasoning stage. This approach reduces computational cost while preserving fine-grained visual details where necessary. A major challenge lies in inferring which regions are truly relevant to a given query. Recent related methods often fail in the first stage after input-image downsampling, due to perception-driven reasoning, where clear visual information is required for effective reasoning. To address this issue, we propose ERGO (Efficient Reasoning & Guided Observation) that performs reasoning-driven perception-leveraging multimodal context to determine where to focus. Our model can account for perceptual uncertainty, expanding the cropped region to cover visually ambiguous areas for answering questions. To this end, we develop simple yet effective reward components in a reinforcement learning framework for coarse-to-fine perception. Across multiple datasets, our approach delivers higher accuracy than the original model and competitive methods, with greater efficiency. For instance, ERGO surpasses Qwen2.5-VL-7B on the V* benchmark by 4.7 points while using only 23% of the vision tokens, achieving a 3x inference speedup. The code and models can be found at: https://github.com/nota-github/ERGO.
PDF42September 29, 2025