ChatPaper.aiChatPaper

Ne vous contentez pas de regarder une seule fois : Vers un raisonnement interactif multimodal avec réexamen visuel sélectif

Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation

May 24, 2025
Auteurs: Jiwan Chung, Junhyeok Kim, Siyeol Kim, Jaeyoung Lee, Min Soo Kim, Youngjae Yu
cs.AI

Résumé

Nous présentons v1, une extension légère des Modèles de Langage Multimodaux de Grande Taille (MLLMs) qui permet une révision visuelle sélective pendant l'inférence. Alors que les MLLMs actuels consomment généralement l'entrée visuelle une seule fois et raisonnent uniquement sur la mémoire interne, v1 introduit un mécanisme simple de pointage et copie qui permet au modèle de récupérer dynamiquement les régions pertinentes de l'image tout au long du processus de raisonnement. Ce mécanisme enrichit les architectures existantes avec des modifications minimales, permettant un accès contextuel aux tokens visuels en fonction des hypothèses évolutives du modèle. Pour entraîner cette capacité, nous construisons v1g, un ensemble de données de 300K traces de raisonnement multimodal avec des annotations entrelacées d'ancrage visuel. Les expériences sur trois benchmarks de raisonnement mathématique multimodal -- MathVista, MathVision et MathVerse -- démontrent que v1 améliore systématiquement les performances par rapport aux bases de comparaison, en particulier sur les tâches nécessitant une référence visuelle fine et un raisonnement à plusieurs étapes. Nos résultats suggèrent que l'accès visuel dynamique est une direction prometteuse pour améliorer le raisonnement multimodal ancré. Le code, les modèles et les données seront publiés pour soutenir les recherches futures.
English
We present v1, a lightweight extension to Multimodal Large Language Models (MLLMs) that enables selective visual revisitation during inference. While current MLLMs typically consume visual input only once and reason purely over internal memory, v1 introduces a simple point-and-copy mechanism that allows the model to dynamically retrieve relevant image regions throughout the reasoning process. This mechanism augments existing architectures with minimal modifications, enabling contextual access to visual tokens based on the model's evolving hypotheses. To train this capability, we construct v1g, a dataset of 300K multimodal reasoning traces with interleaved visual grounding annotations. Experiments on three multimodal mathematical reasoning benchmarks -- MathVista, MathVision, and MathVerse -- demonstrate that v1 consistently improves performance over comparable baselines, particularly on tasks requiring fine-grained visual reference and multi-step reasoning. Our results suggest that dynamic visual access is a promising direction for enhancing grounded multimodal reasoning. Code, models, and data will be released to support future research.
PDF352June 2, 2025