V-Thinker: Interactief Denken met Beelden

Samenvatting

Het in staat stellen van grote multimodale modellen (LMM's) om beeldinteractie diep te integreren met redeneervaardigheden over lange tijdshorizons blijft een langdurige uitdaging in dit vakgebied. Recente vooruitgang in visie-gestuurd redeneren verkent een veelbelovend "Denken met Beelden"-paradigma voor LMM's, wat een verschuiving markeert van beeld-ondersteund redeneren naar beeld-interactief denken. Hoewel deze mijlpaal modellen in staat stelt zich te concentreren op fijnmazige beeldregio's, wordt vooruitgang nog steeds beperkt door beperkte visuele toolruimten en taakspecifieke workflowontwerpen. Om deze kloof te overbruggen, presenteren wij V-Thinker, een algemene multimodale redeneerassistent die interactief, visie-gestuurd denken mogelijk maakt door end-to-end reinforcement learning. V-Thinker bestaat uit twee kernelementen: (1) een Data Evolution Flywheel die automatisch interactieve redeneerdatasets synthetiseert, evolueert en verifieert langs drie dimensies—diversiteit, kwaliteit en moeilijkheidsgraad; en (2) een Visueel Progressief Trainingscurriculum dat eerst de perceptie afstemt via puntniveau-supervisie, en vervolgens interactief redeneren integreert door een reinforcement learning raamwerk in twee fasen. Verder introduceren wij VTBench, een expert-geverifieerde benchmark gericht op visie-gestuurde interactieve redeneertaken. Uitgebreide experimenten tonen aan dat V-Thinker consistent sterke LMM-gebaseerde baseline-methoden overtreft in zowel algemene als interactieve redeneerscenario's, wat waardevolle inzichten biedt voor het bevorderen van beeld-interactieve redeneertoepassingen.

English

Empowering Large Multimodal Models (LMMs) to deeply integrate image interaction with long-horizon reasoning capabilities remains a long-standing challenge in this field. Recent advances in vision-centric reasoning explore a promising "Thinking with Images" paradigm for LMMs, marking a shift from image-assisted reasoning to image-interactive thinking. While this milestone enables models to focus on fine-grained image regions, progress remains constrained by limited visual tool spaces and task-specific workflow designs. To bridge this gap, we present V-Thinker, a general-purpose multimodal reasoning assistant that enables interactive, vision-centric thinking through end-to-end reinforcement learning. V-Thinker comprises two key components: (1) a Data Evolution Flywheel that automatically synthesizes, evolves, and verifies interactive reasoning datasets across three dimensions-diversity, quality, and difficulty; and (2) a Visual Progressive Training Curriculum that first aligns perception via point-level supervision, then integrates interactive reasoning through a two-stage reinforcement learning framework. Furthermore, we introduce VTBench, an expert-verified benchmark targeting vision-centric interactive reasoning tasks. Extensive experiments demonstrate that V-Thinker consistently outperforms strong LMM-based baselines in both general and interactive reasoning scenarios, providing valuable insights for advancing image-interactive reasoning applications.

V-Thinker: Interactief Denken met Beelden

V-Thinker: Interactive Thinking with Images

Samenvatting

Support