ChatPaper.aiChatPaper

ERGO : Compréhension visuelle haute résolution efficace pour les modèles vision-langage

ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

September 26, 2025
papers.authors: Jewon Lee, Wooksu Shin, Seungmin Yang, Ki-Ung Song, DongUk Lim, Jaeyeon Kim, Tae-Ho Kim, Bo-Kyeong Kim
cs.AI

papers.abstract

Le traitement efficace des images haute résolution est crucial pour les applications réelles de vision et langage. Cependant, les modèles de vision et langage à grande échelle (LVLMs) existants entraînent une surcharge computationnelle importante en raison du grand nombre de tokens visuels. Avec l'avènement des modèles "pensant avec des images", le raisonnement s'étend désormais au-delà du texte pour inclure le domaine visuel. Cette capacité motive notre pipeline de raisonnement en deux étapes "du grossier au fin" : d'abord, une image sous-échantillonnée est analysée pour identifier les régions pertinentes à la tâche ; ensuite, seules ces régions sont recadrées en pleine résolution et traitées dans une étape de raisonnement ultérieure. Cette approche réduit les coûts computationnels tout en préservant les détails visuels fins là où c'est nécessaire. Un défi majeur réside dans l'inférence des régions réellement pertinentes pour une requête donnée. Les méthodes récentes échouent souvent à la première étape après le sous-échantillonnage de l'image d'entrée, en raison d'un raisonnement basé sur la perception, où une information visuelle claire est nécessaire pour un raisonnement efficace. Pour résoudre ce problème, nous proposons ERGO (Efficient Reasoning & Guided Observation) qui effectue une perception pilotée par le raisonnement, en exploitant le contexte multimodal pour déterminer où se concentrer. Notre modèle peut prendre en compte l'incertitude perceptuelle, en élargissant la région recadrée pour couvrir les zones visuellement ambiguës afin de répondre aux questions. À cette fin, nous développons des composants de récompense simples mais efficaces dans un cadre d'apprentissage par renforcement pour une perception du grossier au fin. Sur plusieurs ensembles de données, notre approche offre une précision supérieure à celle du modèle original et des méthodes concurrentes, avec une plus grande efficacité. Par exemple, ERGO surpasse Qwen2.5-VL-7B sur le benchmark V* de 4,7 points tout en utilisant seulement 23 % des tokens visuels, atteignant une accélération de l'inférence par 3. Le code et les modèles peuvent être trouvés à : https://github.com/nota-github/ERGO.
English
Efficient processing of high-resolution images is crucial for real-world vision-language applications. However, existing Large Vision-Language Models (LVLMs) incur substantial computational overhead due to the large number of vision tokens. With the advent of "thinking with images" models, reasoning now extends beyond text to the visual domain. This capability motivates our two-stage "coarse-to-fine" reasoning pipeline: first, a downsampled image is analyzed to identify task-relevant regions; then, only these regions are cropped at full resolution and processed in a subsequent reasoning stage. This approach reduces computational cost while preserving fine-grained visual details where necessary. A major challenge lies in inferring which regions are truly relevant to a given query. Recent related methods often fail in the first stage after input-image downsampling, due to perception-driven reasoning, where clear visual information is required for effective reasoning. To address this issue, we propose ERGO (Efficient Reasoning & Guided Observation) that performs reasoning-driven perception-leveraging multimodal context to determine where to focus. Our model can account for perceptual uncertainty, expanding the cropped region to cover visually ambiguous areas for answering questions. To this end, we develop simple yet effective reward components in a reinforcement learning framework for coarse-to-fine perception. Across multiple datasets, our approach delivers higher accuracy than the original model and competitive methods, with greater efficiency. For instance, ERGO surpasses Qwen2.5-VL-7B on the V* benchmark by 4.7 points while using only 23% of the vision tokens, achieving a 3x inference speedup. The code and models can be found at: https://github.com/nota-github/ERGO.
PDF42September 29, 2025