ChatPaper.aiChatPaper

Schau nicht nur einmal hin: Auf dem Weg zu multimodalem interaktivem Denken mit selektiver visueller Wiederbesichtigung

Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation

May 24, 2025
Autoren: Jiwan Chung, Junhyeok Kim, Siyeol Kim, Jaeyoung Lee, Min Soo Kim, Youngjae Yu
cs.AI

Zusammenfassung

Wir stellen v1 vor, eine leichtgewichtige Erweiterung für Multimodale Große Sprachmodelle (MLLMs), die eine selektive visuelle Wiederbetrachtung während der Inferenz ermöglicht. Während aktuelle MLLMs visuelle Eingaben typischerweise nur einmal verarbeiten und ausschließlich über internen Speicher schlussfolgern, führt v1 einen einfachen Punkt-und-Kopier-Mechanismus ein, der es dem Modell erlaubt, relevante Bildregionen dynamisch während des Schlussfolgerungsprozesses abzurufen. Dieser Mechanismus erweitert bestehende Architekturen mit minimalen Modifikationen und ermöglicht den kontextuellen Zugriff auf visuelle Tokens basierend auf den sich entwickelnden Hypothesen des Modells. Um diese Fähigkeit zu trainieren, erstellen wir v1g, einen Datensatz mit 300K multimodalen Schlussfolgerungsspuren, die mit verschachtelten visuellen Verankerungsannotationen versehen sind. Experimente auf drei multimodalen mathematischen Schlussfolgerungs-Benchmarks – MathVista, MathVision und MathVerse – zeigen, dass v1 die Leistung im Vergleich zu ähnlichen Baselines durchgängig verbessert, insbesondere bei Aufgaben, die feinkörnige visuelle Referenz und mehrstufiges Schlussfolgern erfordern. Unsere Ergebnisse deuten darauf hin, dass dynamischer visueller Zugriff eine vielversprechende Richtung zur Verbesserung von fundierter multimodaler Schlussfolgerung ist. Code, Modelle und Daten werden veröffentlicht, um zukünftige Forschung zu unterstützen.
English
We present v1, a lightweight extension to Multimodal Large Language Models (MLLMs) that enables selective visual revisitation during inference. While current MLLMs typically consume visual input only once and reason purely over internal memory, v1 introduces a simple point-and-copy mechanism that allows the model to dynamically retrieve relevant image regions throughout the reasoning process. This mechanism augments existing architectures with minimal modifications, enabling contextual access to visual tokens based on the model's evolving hypotheses. To train this capability, we construct v1g, a dataset of 300K multimodal reasoning traces with interleaved visual grounding annotations. Experiments on three multimodal mathematical reasoning benchmarks -- MathVista, MathVision, and MathVerse -- demonstrate that v1 consistently improves performance over comparable baselines, particularly on tasks requiring fine-grained visual reference and multi-step reasoning. Our results suggest that dynamic visual access is a promising direction for enhancing grounded multimodal reasoning. Code, models, and data will be released to support future research.
PDF352June 2, 2025