V-Thinker: Interactief Denken met Beelden
V-Thinker: Interactive Thinking with Images
November 6, 2025
Auteurs: Runqi Qiao, Qiuna Tan, Minghan Yang, Guanting Dong, Peiqing Yang, Shiqiang Lang, Enhui Wan, Xiaowan Wang, Yida Xu, Lan Yang, Chong Sun, Chen Li, Honggang Zhang
cs.AI
Samenvatting
Het in staat stellen van grote multimodale modellen (LMM's) om beeldinteractie diep te integreren met redeneervaardigheden over lange tijdshorizons blijft een langdurige uitdaging in dit vakgebied. Recente vooruitgang in visie-gestuurd redeneren verkent een veelbelovend "Denken met Beelden"-paradigma voor LMM's, wat een verschuiving markeert van beeld-ondersteund redeneren naar beeld-interactief denken. Hoewel deze mijlpaal modellen in staat stelt zich te concentreren op fijnmazige beeldregio's, wordt vooruitgang nog steeds beperkt door beperkte visuele toolruimten en taakspecifieke workflowontwerpen.
Om deze kloof te overbruggen, presenteren wij V-Thinker, een algemene multimodale redeneerassistent die interactief, visie-gestuurd denken mogelijk maakt door end-to-end reinforcement learning. V-Thinker bestaat uit twee kernelementen: (1) een Data Evolution Flywheel die automatisch interactieve redeneerdatasets synthetiseert, evolueert en verifieert langs drie dimensies—diversiteit, kwaliteit en moeilijkheidsgraad; en (2) een Visueel Progressief Trainingscurriculum dat eerst de perceptie afstemt via puntniveau-supervisie, en vervolgens interactief redeneren integreert door een reinforcement learning raamwerk in twee fasen.
Verder introduceren wij VTBench, een expert-geverifieerde benchmark gericht op visie-gestuurde interactieve redeneertaken. Uitgebreide experimenten tonen aan dat V-Thinker consistent sterke LMM-gebaseerde baseline-methoden overtreft in zowel algemene als interactieve redeneerscenario's, wat waardevolle inzichten biedt voor het bevorderen van beeld-interactieve redeneertoepassingen.
English
Empowering Large Multimodal Models (LMMs) to deeply integrate image
interaction with long-horizon reasoning capabilities remains a long-standing
challenge in this field. Recent advances in vision-centric reasoning explore a
promising "Thinking with Images" paradigm for LMMs, marking a shift from
image-assisted reasoning to image-interactive thinking. While this milestone
enables models to focus on fine-grained image regions, progress remains
constrained by limited visual tool spaces and task-specific workflow designs.
To bridge this gap, we present V-Thinker, a general-purpose multimodal
reasoning assistant that enables interactive, vision-centric thinking through
end-to-end reinforcement learning. V-Thinker comprises two key components: (1)
a Data Evolution Flywheel that automatically synthesizes, evolves, and verifies
interactive reasoning datasets across three dimensions-diversity, quality, and
difficulty; and (2) a Visual Progressive Training Curriculum that first aligns
perception via point-level supervision, then integrates interactive reasoning
through a two-stage reinforcement learning framework. Furthermore, we introduce
VTBench, an expert-verified benchmark targeting vision-centric interactive
reasoning tasks. Extensive experiments demonstrate that V-Thinker consistently
outperforms strong LMM-based baselines in both general and interactive
reasoning scenarios, providing valuable insights for advancing
image-interactive reasoning applications.