Non Guardare Solo Una Volta: Verso un Ragionamento Interattivo Multimodale con Revisita Visiva Selettiva
Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation
May 24, 2025
Autori: Jiwan Chung, Junhyeok Kim, Siyeol Kim, Jaeyoung Lee, Min Soo Kim, Youngjae Yu
cs.AI
Abstract
Presentiamo v1, un'estensione leggera per i Modelli Linguistici Multimodali di Grande Scala (MLLMs) che abilita la rivisitazione visiva selettiva durante l'inferenza. Mentre gli attuali MLLMs consumano tipicamente l'input visivo una sola volta e ragionano esclusivamente sulla memoria interna, v1 introduce un semplice meccanismo di puntamento e copia che consente al modello di recuperare dinamicamente le regioni dell'immagine rilevanti durante il processo di ragionamento. Questo meccanismo arricchisce le architetture esistenti con modifiche minime, permettendo l'accesso contestuale ai token visivi in base alle ipotesi in evoluzione del modello. Per addestrare questa capacità, abbiamo costruito v1g, un dataset di 300K tracce di ragionamento multimodale con annotazioni intercalate di grounding visivo. Gli esperimenti su tre benchmark di ragionamento matematico multimodale -- MathVista, MathVision e MathVerse -- dimostrano che v1 migliora costantemente le prestazioni rispetto ai baseline comparabili, in particolare sui compiti che richiedono un riferimento visivo fine e un ragionamento a più passaggi. I nostri risultati suggeriscono che l'accesso visivo dinamico è una direzione promettente per migliorare il ragionamento multimodale fondato. Codice, modelli e dati saranno rilasciati per supportare la ricerca futura.
English
We present v1, a lightweight extension to Multimodal Large Language Models
(MLLMs) that enables selective visual revisitation during inference. While
current MLLMs typically consume visual input only once and reason purely over
internal memory, v1 introduces a simple point-and-copy mechanism that allows
the model to dynamically retrieve relevant image regions throughout the
reasoning process. This mechanism augments existing architectures with minimal
modifications, enabling contextual access to visual tokens based on the model's
evolving hypotheses. To train this capability, we construct v1g, a dataset of
300K multimodal reasoning traces with interleaved visual grounding annotations.
Experiments on three multimodal mathematical reasoning benchmarks -- MathVista,
MathVision, and MathVerse -- demonstrate that v1 consistently improves
performance over comparable baselines, particularly on tasks requiring
fine-grained visual reference and multi-step reasoning. Our results suggest
that dynamic visual access is a promising direction for enhancing grounded
multimodal reasoning. Code, models, and data will be released to support future
research.