ERGO: Эффективное высокоразрешающее визуальное восприятие для моделей "зрение-язык"
ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models
September 26, 2025
Авторы: Jewon Lee, Wooksu Shin, Seungmin Yang, Ki-Ung Song, DongUk Lim, Jaeyeon Kim, Tae-Ho Kim, Bo-Kyeong Kim
cs.AI
Аннотация
Эффективная обработка изображений с высоким разрешением имеет решающее значение для практических приложений, объединяющих зрение и язык. Однако существующие крупные модели обработки визуальных и языковых данных (LVLMs) требуют значительных вычислительных ресурсов из-за большого количества визуальных токенов. С появлением моделей, способных "мыслить с помощью изображений", рассуждения теперь выходят за рамки текста и охватывают визуальную область. Эта возможность вдохновила нас на создание двухэтапного подхода "от грубого к точному": сначала анализируется уменьшенное изображение для выявления областей, релевантных задаче; затем только эти области вырезаются в полном разрешении и обрабатываются на следующем этапе рассуждений. Такой подход снижает вычислительные затраты, сохраняя при необходимости детализированные визуальные данные. Основная сложность заключается в определении того, какие области действительно важны для конкретного запроса. Современные методы часто терпят неудачу на первом этапе после уменьшения разрешения изображения из-за восприятия, основанного на рассуждениях, где для эффективного анализа требуется четкая визуальная информация. Чтобы решить эту проблему, мы предлагаем модель ERGO (Efficient Reasoning & Guided Observation), которая выполняет рассуждения, управляемые восприятием, используя мультимодальный контекст для определения фокуса внимания. Наша модель учитывает неопределенность восприятия, расширяя область обрезки для охвата визуально неоднозначных участков при ответах на вопросы. Для этого мы разработали простые, но эффективные компоненты вознаграждения в рамках обучения с подкреплением для восприятия "от грубого к точному". На нескольких наборах данных наш подход демонстрирует более высокую точность по сравнению с исходной моделью и конкурирующими методами, обеспечивая при этом большую эффективность. Например, ERGO превосходит Qwen2.5-VL-7B на бенчмарке V* на 4.7 балла, используя только 23% визуальных токенов, что ускоряет вывод в 3 раза. Код и модели доступны по адресу: https://github.com/nota-github/ERGO.
English
Efficient processing of high-resolution images is crucial for real-world
vision-language applications. However, existing Large Vision-Language Models
(LVLMs) incur substantial computational overhead due to the large number of
vision tokens. With the advent of "thinking with images" models, reasoning now
extends beyond text to the visual domain. This capability motivates our
two-stage "coarse-to-fine" reasoning pipeline: first, a downsampled image is
analyzed to identify task-relevant regions; then, only these regions are
cropped at full resolution and processed in a subsequent reasoning stage. This
approach reduces computational cost while preserving fine-grained visual
details where necessary. A major challenge lies in inferring which regions are
truly relevant to a given query. Recent related methods often fail in the first
stage after input-image downsampling, due to perception-driven reasoning, where
clear visual information is required for effective reasoning. To address this
issue, we propose ERGO (Efficient Reasoning & Guided Observation) that performs
reasoning-driven perception-leveraging multimodal context to determine where to
focus. Our model can account for perceptual uncertainty, expanding the cropped
region to cover visually ambiguous areas for answering questions. To this end,
we develop simple yet effective reward components in a reinforcement learning
framework for coarse-to-fine perception. Across multiple datasets, our approach
delivers higher accuracy than the original model and competitive methods, with
greater efficiency. For instance, ERGO surpasses Qwen2.5-VL-7B on the V*
benchmark by 4.7 points while using only 23% of the vision tokens, achieving a
3x inference speedup. The code and models can be found at:
https://github.com/nota-github/ERGO.