ERGO: Эффективное высокоразрешающее визуальное восприятие для моделей "зрение-язык"

Аннотация

Эффективная обработка изображений с высоким разрешением имеет решающее значение для практических приложений, объединяющих зрение и язык. Однако существующие крупные модели обработки визуальных и языковых данных (LVLMs) требуют значительных вычислительных ресурсов из-за большого количества визуальных токенов. С появлением моделей, способных "мыслить с помощью изображений", рассуждения теперь выходят за рамки текста и охватывают визуальную область. Эта возможность вдохновила нас на создание двухэтапного подхода "от грубого к точному": сначала анализируется уменьшенное изображение для выявления областей, релевантных задаче; затем только эти области вырезаются в полном разрешении и обрабатываются на следующем этапе рассуждений. Такой подход снижает вычислительные затраты, сохраняя при необходимости детализированные визуальные данные. Основная сложность заключается в определении того, какие области действительно важны для конкретного запроса. Современные методы часто терпят неудачу на первом этапе после уменьшения разрешения изображения из-за восприятия, основанного на рассуждениях, где для эффективного анализа требуется четкая визуальная информация. Чтобы решить эту проблему, мы предлагаем модель ERGO (Efficient Reasoning & Guided Observation), которая выполняет рассуждения, управляемые восприятием, используя мультимодальный контекст для определения фокуса внимания. Наша модель учитывает неопределенность восприятия, расширяя область обрезки для охвата визуально неоднозначных участков при ответах на вопросы. Для этого мы разработали простые, но эффективные компоненты вознаграждения в рамках обучения с подкреплением для восприятия "от грубого к точному". На нескольких наборах данных наш подход демонстрирует более высокую точность по сравнению с исходной моделью и конкурирующими методами, обеспечивая при этом большую эффективность. Например, ERGO превосходит Qwen2.5-VL-7B на бенчмарке V* на 4.7 балла, используя только 23% визуальных токенов, что ускоряет вывод в 3 раза. Код и модели доступны по адресу: https://github.com/nota-github/ERGO.

English

Efficient processing of high-resolution images is crucial for real-world vision-language applications. However, existing Large Vision-Language Models (LVLMs) incur substantial computational overhead due to the large number of vision tokens. With the advent of "thinking with images" models, reasoning now extends beyond text to the visual domain. This capability motivates our two-stage "coarse-to-fine" reasoning pipeline: first, a downsampled image is analyzed to identify task-relevant regions; then, only these regions are cropped at full resolution and processed in a subsequent reasoning stage. This approach reduces computational cost while preserving fine-grained visual details where necessary. A major challenge lies in inferring which regions are truly relevant to a given query. Recent related methods often fail in the first stage after input-image downsampling, due to perception-driven reasoning, where clear visual information is required for effective reasoning. To address this issue, we propose ERGO (Efficient Reasoning & Guided Observation) that performs reasoning-driven perception-leveraging multimodal context to determine where to focus. Our model can account for perceptual uncertainty, expanding the cropped region to cover visually ambiguous areas for answering questions. To this end, we develop simple yet effective reward components in a reinforcement learning framework for coarse-to-fine perception. Across multiple datasets, our approach delivers higher accuracy than the original model and competitive methods, with greater efficiency. For instance, ERGO surpasses Qwen2.5-VL-7B on the V* benchmark by 4.7 points while using only 23% of the vision tokens, achieving a 3x inference speedup. The code and models can be found at: https://github.com/nota-github/ERGO.

ERGO: Эффективное высокоразрешающее визуальное восприятие для моделей "зрение-язык"

ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

Аннотация

Support