Ne vous contentez pas de regarder une seule fois : Vers un raisonnement interactif multimodal avec réexamen visuel sélectif
Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation
May 24, 2025
Auteurs: Jiwan Chung, Junhyeok Kim, Siyeol Kim, Jaeyoung Lee, Min Soo Kim, Youngjae Yu
cs.AI
Résumé
Nous présentons v1, une extension légère des Modèles de Langage Multimodaux de Grande Taille (MLLMs) qui permet une révision visuelle sélective pendant l'inférence. Alors que les MLLMs actuels consomment généralement l'entrée visuelle une seule fois et raisonnent uniquement sur la mémoire interne, v1 introduit un mécanisme simple de pointage et copie qui permet au modèle de récupérer dynamiquement les régions pertinentes de l'image tout au long du processus de raisonnement. Ce mécanisme enrichit les architectures existantes avec des modifications minimales, permettant un accès contextuel aux tokens visuels en fonction des hypothèses évolutives du modèle. Pour entraîner cette capacité, nous construisons v1g, un ensemble de données de 300K traces de raisonnement multimodal avec des annotations entrelacées d'ancrage visuel. Les expériences sur trois benchmarks de raisonnement mathématique multimodal -- MathVista, MathVision et MathVerse -- démontrent que v1 améliore systématiquement les performances par rapport aux bases de comparaison, en particulier sur les tâches nécessitant une référence visuelle fine et un raisonnement à plusieurs étapes. Nos résultats suggèrent que l'accès visuel dynamique est une direction prometteuse pour améliorer le raisonnement multimodal ancré. Le code, les modèles et les données seront publiés pour soutenir les recherches futures.
English
We present v1, a lightweight extension to Multimodal Large Language Models
(MLLMs) that enables selective visual revisitation during inference. While
current MLLMs typically consume visual input only once and reason purely over
internal memory, v1 introduces a simple point-and-copy mechanism that allows
the model to dynamically retrieve relevant image regions throughout the
reasoning process. This mechanism augments existing architectures with minimal
modifications, enabling contextual access to visual tokens based on the model's
evolving hypotheses. To train this capability, we construct v1g, a dataset of
300K multimodal reasoning traces with interleaved visual grounding annotations.
Experiments on three multimodal mathematical reasoning benchmarks -- MathVista,
MathVision, and MathVerse -- demonstrate that v1 consistently improves
performance over comparable baselines, particularly on tasks requiring
fine-grained visual reference and multi-step reasoning. Our results suggest
that dynamic visual access is a promising direction for enhancing grounded
multimodal reasoning. Code, models, and data will be released to support future
research.