ChatPaper.aiChatPaper

V-Thinker : Pensée interactive avec les images

V-Thinker: Interactive Thinking with Images

November 6, 2025
papers.authors: Runqi Qiao, Qiuna Tan, Minghan Yang, Guanting Dong, Peiqing Yang, Shiqiang Lang, Enhui Wan, Xiaowan Wang, Yida Xu, Lan Yang, Chong Sun, Chen Li, Honggang Zhang
cs.AI

papers.abstract

Permettre aux grands modèles multimodaux (LMM) d'intégrer profondément l'interaction visuelle avec des capacités de raisonnement à long terme reste un défi de longue date dans ce domaine. Les récentes avancées en raisonnement visuo-centré explorent un paradigme prometteur, « Penser avec les Images », pour les LMM, marquant une transition d'un raisonnement assisté par l'image vers une pensée interactive avec l'image. Bien que cette étape permette aux modèles de se concentrer sur des régions d'image à granularité fine, les progrès restent limités par des espaces d'outils visuels restreints et des conceptions de flux de travail spécifiques aux tâches. Pour combler cette lacune, nous présentons V-Thinker, un assistant de raisonnement multimodal polyvalent qui permet une pensée interactive et visuo-centrée via un apprentissage par renforcement de bout en bout. V-Thinker comprend deux composants clés : (1) un Volant d'Inertie d'Évolution des Données qui synthétise, fait évoluer et vérifie automatiquement des ensembles de données de raisonnement interactif selon trois dimensions - diversité, qualité et difficulté ; et (2) un Curriculum de Formation Progressive Visuelle qui aligne d'abord la perception via une supervision au niveau du point, puis intègre le raisonnement interactif grâce à un cadre d'apprentissage par renforcement en deux étapes. Par ailleurs, nous introduisons VTBench, un benchmark vérifié par des experts ciblant les tâches de raisonnement interactif visuo-centré. Des expériences approfondies démontrent que V-Thinker surpasse constamment des bases de référence solides basées sur les LMM dans des scénarios de raisonnement général et interactif, offrant des perspectives précieuses pour faire progresser les applications de raisonnement interactif avec l'image.
English
Empowering Large Multimodal Models (LMMs) to deeply integrate image interaction with long-horizon reasoning capabilities remains a long-standing challenge in this field. Recent advances in vision-centric reasoning explore a promising "Thinking with Images" paradigm for LMMs, marking a shift from image-assisted reasoning to image-interactive thinking. While this milestone enables models to focus on fine-grained image regions, progress remains constrained by limited visual tool spaces and task-specific workflow designs. To bridge this gap, we present V-Thinker, a general-purpose multimodal reasoning assistant that enables interactive, vision-centric thinking through end-to-end reinforcement learning. V-Thinker comprises two key components: (1) a Data Evolution Flywheel that automatically synthesizes, evolves, and verifies interactive reasoning datasets across three dimensions-diversity, quality, and difficulty; and (2) a Visual Progressive Training Curriculum that first aligns perception via point-level supervision, then integrates interactive reasoning through a two-stage reinforcement learning framework. Furthermore, we introduce VTBench, an expert-verified benchmark targeting vision-centric interactive reasoning tasks. Extensive experiments demonstrate that V-Thinker consistently outperforms strong LMM-based baselines in both general and interactive reasoning scenarios, providing valuable insights for advancing image-interactive reasoning applications.
PDF958December 2, 2025