ChatPaper.aiChatPaper

Não Olhe Apenas Uma Vez: Rumo ao Raciocínio Interativo Multimodal com Revisitação Visual Seletiva

Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation

May 24, 2025
Autores: Jiwan Chung, Junhyeok Kim, Siyeol Kim, Jaeyoung Lee, Min Soo Kim, Youngjae Yu
cs.AI

Resumo

Apresentamos o v1, uma extensão leve para Modelos de Linguagem Multimodais de Grande Escala (MLLMs) que permite a revisitação visual seletiva durante a inferência. Enquanto os MLLMs atuais normalmente consomem a entrada visual apenas uma vez e raciocinam exclusivamente sobre a memória interna, o v1 introduz um mecanismo simples de apontar e copiar que permite ao modelo recuperar dinamicamente regiões relevantes da imagem ao longo do processo de raciocínio. Esse mecanismo amplia as arquiteturas existentes com modificações mínimas, permitindo o acesso contextual a tokens visuais com base nas hipóteses em evolução do modelo. Para treinar essa capacidade, construímos o v1g, um conjunto de dados com 300 mil traços de raciocínio multimodal com anotações intercaladas de fundamentação visual. Experimentos em três benchmarks de raciocínio matemático multimodal -- MathVista, MathVision e MathVerse -- demonstram que o v1 melhora consistentemente o desempenho em relação às linhas de base comparáveis, especialmente em tarefas que exigem referência visual detalhada e raciocínio em múltiplas etapas. Nossos resultados sugerem que o acesso visual dinâmico é uma direção promissora para aprimorar o raciocínio multimodal fundamentado. Código, modelos e dados serão disponibilizados para apoiar pesquisas futuras.
English
We present v1, a lightweight extension to Multimodal Large Language Models (MLLMs) that enables selective visual revisitation during inference. While current MLLMs typically consume visual input only once and reason purely over internal memory, v1 introduces a simple point-and-copy mechanism that allows the model to dynamically retrieve relevant image regions throughout the reasoning process. This mechanism augments existing architectures with minimal modifications, enabling contextual access to visual tokens based on the model's evolving hypotheses. To train this capability, we construct v1g, a dataset of 300K multimodal reasoning traces with interleaved visual grounding annotations. Experiments on three multimodal mathematical reasoning benchmarks -- MathVista, MathVision, and MathVerse -- demonstrate that v1 consistently improves performance over comparable baselines, particularly on tasks requiring fine-grained visual reference and multi-step reasoning. Our results suggest that dynamic visual access is a promising direction for enhancing grounded multimodal reasoning. Code, models, and data will be released to support future research.
PDF362June 2, 2025