V-Thinker: Pensamento Interativo com Imagens

Resumo

Dotar os Grandes Modelos Multimodais (LMMs) com a capacidade de integrar profundamente a interação com imagens e o raciocínio de longo prazo continua a ser um desafio persistente nesta área. Avanços recentes no raciocínio centrado na visão exploram um paradigma promissor de "Pensar com Imagens" para LMMs, marcando uma transição do raciocínio assistido por imagem para o pensamento interativo com imagens. Embora este marco permita que os modelos se concentrem em regiões de imagem de granularidade fina, o progresso permanece limitado por espaços visuais de ferramentas restritos e projetos de fluxo de trabalho específicos para tarefas. Para superar esta lacuna, apresentamos o V-Thinker, um assistente de raciocínio multimodal de propósito geral que permite o pensamento interativo e centrado na visão através de aprendizagem por reforço de ponta a ponta. O V-Thinker compreende dois componentes principais: (1) um *Data Evolution Flywheel* que sintetiza, evolui e verifica automaticamente conjuntos de dados de raciocínio interativo em três dimensões - diversidade, qualidade e dificuldade; e (2) um *Visual Progressive Training Curriculum* que primeiro alinha a perceção através de supervisão a nível de pontos, integrando depois o raciocínio interativo através de uma estrutura de aprendizagem por reforço em duas fases. Adicionalmente, introduzimos o VTBench, um benchmark verificado por especialistas direcionado para tarefas de raciocínio interativo centrado na visão. Experimentos extensivos demonstram que o V-Thinker supera consistentemente linhas de base robustas baseadas em LMMs tanto em cenários de raciocínio geral como interativo, fornecendo insights valiosos para o avanço de aplicações de raciocínio interativo com imagens.

English

Empowering Large Multimodal Models (LMMs) to deeply integrate image interaction with long-horizon reasoning capabilities remains a long-standing challenge in this field. Recent advances in vision-centric reasoning explore a promising "Thinking with Images" paradigm for LMMs, marking a shift from image-assisted reasoning to image-interactive thinking. While this milestone enables models to focus on fine-grained image regions, progress remains constrained by limited visual tool spaces and task-specific workflow designs. To bridge this gap, we present V-Thinker, a general-purpose multimodal reasoning assistant that enables interactive, vision-centric thinking through end-to-end reinforcement learning. V-Thinker comprises two key components: (1) a Data Evolution Flywheel that automatically synthesizes, evolves, and verifies interactive reasoning datasets across three dimensions-diversity, quality, and difficulty; and (2) a Visual Progressive Training Curriculum that first aligns perception via point-level supervision, then integrates interactive reasoning through a two-stage reinforcement learning framework. Furthermore, we introduce VTBench, an expert-verified benchmark targeting vision-centric interactive reasoning tasks. Extensive experiments demonstrate that V-Thinker consistently outperforms strong LMM-based baselines in both general and interactive reasoning scenarios, providing valuable insights for advancing image-interactive reasoning applications.

V-Thinker: Pensamento Interativo com Imagens

V-Thinker: Interactive Thinking with Images

Resumo

Support