ChatPaper.aiChatPaper

V-Thinker: Pensiero Interattivo con le Immagini

V-Thinker: Interactive Thinking with Images

November 6, 2025
Autori: Runqi Qiao, Qiuna Tan, Minghan Yang, Guanting Dong, Peiqing Yang, Shiqiang Lang, Enhui Wan, Xiaowan Wang, Yida Xu, Lan Yang, Chong Sun, Chen Li, Honggang Zhang
cs.AI

Abstract

Consentire ai Large Multimodal Models (LMM) di integrare profondamente l'interazione con le immagini con capacità di ragionamento a lungo termine rimane una sfida di lunga data in questo campo. I recenti progressi nel ragionamento incentrato sulla visione esplorano un promettente paradigma di "Pensare con le Immagini" per gli LMM, segnando un passaggio dal ragionamento assistito dalle immagini al pensiero interattivo con le immagini. Sebbene questa pietra miliare consenta ai modelli di concentrarsi su regioni di immagine a grana fine, i progressi rimangono limitati da spazi di strumenti visivi ridotti e da progetti di flusso di lavoro specifici per task. Per colmare questa lacuna, presentiamo V-Thinker, un assistente multimodale per il ragionamento a scopo generale che abilita un pensiero interattivo e incentrato sulla visione attraverso l'apprendimento per rinforzo end-to-end. V-Thinker comprende due componenti chiave: (1) una Volano di Evoluzione dei Dati che sintetizza, evolve e verifica automaticamente dataset di ragionamento interattivo lungo tre dimensioni - diversità, qualità e difficoltà; e (2) un Curriculum di Addestramento Progressivo Visivo che prima allinea la percezione tramite supervisione a livello di punto, per poi integrare il ragionamento interattivo attraverso un framework di apprendimento per rinforzo a due stadi. Inoltre, introduciamo VTBench, un benchmark verificato da esperti mirato a task di ragionamento interattivo incentrati sulla visione. Esperimenti estensivi dimostrano che V-Thinker supera costantemente baseline solide basate su LMM sia in scenari di ragionamento generale che interattivo, fornendo spunti preziosi per far avanzare le applicazioni di ragionamento interattivo con le immagini.
English
Empowering Large Multimodal Models (LMMs) to deeply integrate image interaction with long-horizon reasoning capabilities remains a long-standing challenge in this field. Recent advances in vision-centric reasoning explore a promising "Thinking with Images" paradigm for LMMs, marking a shift from image-assisted reasoning to image-interactive thinking. While this milestone enables models to focus on fine-grained image regions, progress remains constrained by limited visual tool spaces and task-specific workflow designs. To bridge this gap, we present V-Thinker, a general-purpose multimodal reasoning assistant that enables interactive, vision-centric thinking through end-to-end reinforcement learning. V-Thinker comprises two key components: (1) a Data Evolution Flywheel that automatically synthesizes, evolves, and verifies interactive reasoning datasets across three dimensions-diversity, quality, and difficulty; and (2) a Visual Progressive Training Curriculum that first aligns perception via point-level supervision, then integrates interactive reasoning through a two-stage reinforcement learning framework. Furthermore, we introduce VTBench, an expert-verified benchmark targeting vision-centric interactive reasoning tasks. Extensive experiments demonstrate that V-Thinker consistently outperforms strong LMM-based baselines in both general and interactive reasoning scenarios, providing valuable insights for advancing image-interactive reasoning applications.
PDF958December 2, 2025