ChatPaper.aiChatPaper

V-Thinker: Interaktives Denken mit Bildern

V-Thinker: Interactive Thinking with Images

November 6, 2025
papers.authors: Runqi Qiao, Qiuna Tan, Minghan Yang, Guanting Dong, Peiqing Yang, Shiqiang Lang, Enhui Wan, Xiaowan Wang, Yida Xu, Lan Yang, Chong Sun, Chen Li, Honggang Zhang
cs.AI

papers.abstract

Die Befähigung großer multimodaler Modelle (LMMs), Bildinteraktion tiefgehend mit Fähigkeiten zum Langzeitschlussfolgern zu integrieren, bleibt eine langjährige Herausforderung in diesem Forschungsgebiet. Jüngste Fortschritte im bereich der visuell-zentrierten Reasoningansätze erkunden ein vielversprechendes "Denken mit Bildern"-Paradigma für LMMs, was einen Wandel vom bildgestützten zum bildinteraktiven Denken markiert. Obwohl dieser Meilenstein es Modellen ermöglicht, sich auf feinkörnige Bildregionen zu konzentrieren, bleibt der Fortschritt durch eingeschränkte visuelle Werkzeugräume und aufgabenspezifische Workflow-Designs begrenzt. Um diese Lücke zu schließen, stellen wir V-Thinker vor, einen universellen multimodalen Reasoning-Assistenten, der interaktives, visuell-zentriertes Denken durch bestärkendes Lernen Ende-zu-Ende ermöglicht. V-Thinker umfasst zwei Schlüsselkomponenten: (1) ein Data Evolution Flywheel, das interaktive Reasoning-Datensätze automatisch in drei Dimensionen – Diversität, Qualität und Schwierigkeitsgrad – synthetisiert, weiterentwickelt und verifiziert; und (2) einen Visual Progressive Training Curriculum, der zunächst die Wahrnehmung durch Punkt-für-Punkt-Aufsicht ausrichtet und dann interaktives Reasoning durch einen zweistufigen Reinforcement-Learning-Rahmen integriert. Darüber hinaus führen wir VTBench ein, einen expertengeprüften Benchmark für visuell-zentrierte interaktive Reasoning-Aufgaben. Umfangreiche Experimente zeigen, dass V-Thinker durchgängig starke LMM-basierte Baseline-Modelle sowohl in allgemeinen als auch in interaktiven Reasoning-Szenarien übertrifft und wertvolle Einblicke für die Weiterentwicklung bildinteraktiver Reasoning-Anwendungen liefert.
English
Empowering Large Multimodal Models (LMMs) to deeply integrate image interaction with long-horizon reasoning capabilities remains a long-standing challenge in this field. Recent advances in vision-centric reasoning explore a promising "Thinking with Images" paradigm for LMMs, marking a shift from image-assisted reasoning to image-interactive thinking. While this milestone enables models to focus on fine-grained image regions, progress remains constrained by limited visual tool spaces and task-specific workflow designs. To bridge this gap, we present V-Thinker, a general-purpose multimodal reasoning assistant that enables interactive, vision-centric thinking through end-to-end reinforcement learning. V-Thinker comprises two key components: (1) a Data Evolution Flywheel that automatically synthesizes, evolves, and verifies interactive reasoning datasets across three dimensions-diversity, quality, and difficulty; and (2) a Visual Progressive Training Curriculum that first aligns perception via point-level supervision, then integrates interactive reasoning through a two-stage reinforcement learning framework. Furthermore, we introduce VTBench, an expert-verified benchmark targeting vision-centric interactive reasoning tasks. Extensive experiments demonstrate that V-Thinker consistently outperforms strong LMM-based baselines in both general and interactive reasoning scenarios, providing valuable insights for advancing image-interactive reasoning applications.
PDF958December 2, 2025