No mires solo una vez: hacia el razonamiento interactivo multimodal con revisión visual selectiva
Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation
May 24, 2025
Autores: Jiwan Chung, Junhyeok Kim, Siyeol Kim, Jaeyoung Lee, Min Soo Kim, Youngjae Yu
cs.AI
Resumen
Presentamos v1, una extensión ligera para los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) que permite la revisión visual selectiva durante la inferencia. Mientras que los MLLMs actuales suelen consumir la entrada visual solo una vez y razonan únicamente sobre la memoria interna, v1 introduce un mecanismo simple de apuntar y copiar que permite al modelo recuperar dinámicamente regiones relevantes de la imagen a lo largo del proceso de razonamiento. Este mecanismo aumenta las arquitecturas existentes con modificaciones mínimas, permitiendo el acceso contextual a los tokens visuales basado en las hipótesis en evolución del modelo. Para entrenar esta capacidad, construimos v1g, un conjunto de datos de 300K trazas de razonamiento multimodal con anotaciones intercaladas de anclaje visual. Los experimentos en tres benchmarks de razonamiento matemático multimodal -- MathVista, MathVision y MathVerse -- demuestran que v1 mejora consistentemente el rendimiento en comparación con líneas base similares, particularmente en tareas que requieren referencia visual detallada y razonamiento de múltiples pasos. Nuestros resultados sugieren que el acceso visual dinámico es una dirección prometedora para mejorar el razonamiento multimodal fundamentado. El código, modelos y datos serán liberados para apoyar futuras investigaciones.
English
We present v1, a lightweight extension to Multimodal Large Language Models
(MLLMs) that enables selective visual revisitation during inference. While
current MLLMs typically consume visual input only once and reason purely over
internal memory, v1 introduces a simple point-and-copy mechanism that allows
the model to dynamically retrieve relevant image regions throughout the
reasoning process. This mechanism augments existing architectures with minimal
modifications, enabling contextual access to visual tokens based on the model's
evolving hypotheses. To train this capability, we construct v1g, a dataset of
300K multimodal reasoning traces with interleaved visual grounding annotations.
Experiments on three multimodal mathematical reasoning benchmarks -- MathVista,
MathVision, and MathVerse -- demonstrate that v1 consistently improves
performance over comparable baselines, particularly on tasks requiring
fine-grained visual reference and multi-step reasoning. Our results suggest
that dynamic visual access is a promising direction for enhancing grounded
multimodal reasoning. Code, models, and data will be released to support future
research.