V-Thinker: Pensamiento Interactivo con Imágenes
V-Thinker: Interactive Thinking with Images
November 6, 2025
Autores: Runqi Qiao, Qiuna Tan, Minghan Yang, Guanting Dong, Peiqing Yang, Shiqiang Lang, Enhui Wan, Xiaowan Wang, Yida Xu, Lan Yang, Chong Sun, Chen Li, Honggang Zhang
cs.AI
Resumen
Potenciar a los Grandes Modelos Multimodales (LMMs) para integrar profundamente la interacción con imágenes y capacidades de razonamiento de largo alcance sigue siendo un desafío persistente en este campo. Los avances recientes en el razonamiento centrado en la visión exploran un paradigma prometedor de "Pensar con Imágenes" para los LMMs, marcando un cambio desde el razonamiento asistido por imágenes hacia el pensamiento interactivo con imágenes. Si bien este hito permite a los modelos centrarse en regiones finas de la imagen, el progreso sigue limitado por espacios de herramientas visuales restringidos y diseños de flujo de trabajo específicos para cada tarea. Para cerrar esta brecha, presentamos V-Thinker, un asistente de razonamiento multimodal de propósito general que permite un pensamiento interactivo y centrado en la visión mediante aprendizaje por refuerzo de extremo a extremo. V-Thinker comprende dos componentes clave: (1) un Volante de Inercia de Evolución de Datos que sintetiza, evoluciona y verifica automáticamente conjuntos de datos de razonamiento interactivo en tres dimensiones: diversidad, calidad y dificultad; y (2) un Plan de Estudios de Entrenamiento Progresivo Visual que primero alinea la percepción mediante supervisión a nivel de puntos, para luego integrar el razonamiento interactivo a través de un marco de aprendizaje por refuerzo en dos etapas. Además, presentamos VTBench, un punto de referencia verificado por expertos dirigido a tareas de razonamiento interactivo centradas en la visión. Experimentos exhaustivos demuestran que V-Thinker supera consistentemente a las sólidas líneas base basadas en LMMs tanto en escenarios de razonamiento general como interactivo, proporcionando perspectivas valiosas para avanzar en aplicaciones de razonamiento interactivo con imágenes.
English
Empowering Large Multimodal Models (LMMs) to deeply integrate image
interaction with long-horizon reasoning capabilities remains a long-standing
challenge in this field. Recent advances in vision-centric reasoning explore a
promising "Thinking with Images" paradigm for LMMs, marking a shift from
image-assisted reasoning to image-interactive thinking. While this milestone
enables models to focus on fine-grained image regions, progress remains
constrained by limited visual tool spaces and task-specific workflow designs.
To bridge this gap, we present V-Thinker, a general-purpose multimodal
reasoning assistant that enables interactive, vision-centric thinking through
end-to-end reinforcement learning. V-Thinker comprises two key components: (1)
a Data Evolution Flywheel that automatically synthesizes, evolves, and verifies
interactive reasoning datasets across three dimensions-diversity, quality, and
difficulty; and (2) a Visual Progressive Training Curriculum that first aligns
perception via point-level supervision, then integrates interactive reasoning
through a two-stage reinforcement learning framework. Furthermore, we introduce
VTBench, an expert-verified benchmark targeting vision-centric interactive
reasoning tasks. Extensive experiments demonstrate that V-Thinker consistently
outperforms strong LMM-based baselines in both general and interactive
reasoning scenarios, providing valuable insights for advancing
image-interactive reasoning applications.