V-Thinker: Pensamento Interativo com Imagens
V-Thinker: Interactive Thinking with Images
November 6, 2025
Autores: Runqi Qiao, Qiuna Tan, Minghan Yang, Guanting Dong, Peiqing Yang, Shiqiang Lang, Enhui Wan, Xiaowan Wang, Yida Xu, Lan Yang, Chong Sun, Chen Li, Honggang Zhang
cs.AI
Resumo
Dotar os Grandes Modelos Multimodais (LMMs) com a capacidade de integrar profundamente a interação com imagens e o raciocínio de longo prazo continua a ser um desafio persistente nesta área. Avanços recentes no raciocínio centrado na visão exploram um paradigma promissor de "Pensar com Imagens" para LMMs, marcando uma transição do raciocínio assistido por imagem para o pensamento interativo com imagens. Embora este marco permita que os modelos se concentrem em regiões de imagem de granularidade fina, o progresso permanece limitado por espaços visuais de ferramentas restritos e projetos de fluxo de trabalho específicos para tarefas. Para superar esta lacuna, apresentamos o V-Thinker, um assistente de raciocínio multimodal de propósito geral que permite o pensamento interativo e centrado na visão através de aprendizagem por reforço de ponta a ponta. O V-Thinker compreende dois componentes principais: (1) um *Data Evolution Flywheel* que sintetiza, evolui e verifica automaticamente conjuntos de dados de raciocínio interativo em três dimensões - diversidade, qualidade e dificuldade; e (2) um *Visual Progressive Training Curriculum* que primeiro alinha a perceção através de supervisão a nível de pontos, integrando depois o raciocínio interativo através de uma estrutura de aprendizagem por reforço em duas fases. Adicionalmente, introduzimos o VTBench, um benchmark verificado por especialistas direcionado para tarefas de raciocínio interativo centrado na visão. Experimentos extensivos demonstram que o V-Thinker supera consistentemente linhas de base robustas baseadas em LMMs tanto em cenários de raciocínio geral como interativo, fornecendo insights valiosos para o avanço de aplicações de raciocínio interativo com imagens.
English
Empowering Large Multimodal Models (LMMs) to deeply integrate image
interaction with long-horizon reasoning capabilities remains a long-standing
challenge in this field. Recent advances in vision-centric reasoning explore a
promising "Thinking with Images" paradigm for LMMs, marking a shift from
image-assisted reasoning to image-interactive thinking. While this milestone
enables models to focus on fine-grained image regions, progress remains
constrained by limited visual tool spaces and task-specific workflow designs.
To bridge this gap, we present V-Thinker, a general-purpose multimodal
reasoning assistant that enables interactive, vision-centric thinking through
end-to-end reinforcement learning. V-Thinker comprises two key components: (1)
a Data Evolution Flywheel that automatically synthesizes, evolves, and verifies
interactive reasoning datasets across three dimensions-diversity, quality, and
difficulty; and (2) a Visual Progressive Training Curriculum that first aligns
perception via point-level supervision, then integrates interactive reasoning
through a two-stage reinforcement learning framework. Furthermore, we introduce
VTBench, an expert-verified benchmark targeting vision-centric interactive
reasoning tasks. Extensive experiments demonstrate that V-Thinker consistently
outperforms strong LMM-based baselines in both general and interactive
reasoning scenarios, providing valuable insights for advancing
image-interactive reasoning applications.