Pensamiento con Anclaje Visual

Resumen

El pensamiento visual no solo debe sonar correcto; debe mostrar sus evidencias. Aunque los modelos recientes de visión-lenguaje (VLM) pueden generar trazas de razonamiento en lenguaje natural, estas trazas suelen dejar implícitas las regiones de imagen de apoyo, lo que dificulta su verificación y supervisión. Introducimos el pensamiento visualmente fundamentado, un proceso de razonamiento en el que los modelos intercalan pensamientos en lenguaje natural con fundamentaciones explícitas mediante puntos o cuadros delimitadores de la evidencia visual utilizada en cada paso. Esto permite que el modelo exprese su razonamiento intermedio en lenguaje, a la vez que fundamenta los objetos clave en las regiones de imagen a las que se refieren. Para entrenar este comportamiento, construimos un pipeline de síntesis escalable que destila trazas de razonamiento visual correctas, extrae los objetos visuales requeridos por las trazas, los fundamenta con un agente basado en SAM3 y deriva supervisión alineada de puntos y cuadros a partir de las máscaras resultantes. Además, proponemos el aprendizaje por refuerzo consciente de la fundamentación, que combina recompensas por corrección de respuestas con recompensas de fundamentación densas que evalúan si las referencias a objetos generadas coinciden con la evidencia de imagen correcta. En dos pruebas de referencia de conteo y cuatro de razonamiento espacial, añadir pensamiento visualmente fundamentado a Gemma3-4B-IT mejora consistentemente el rendimiento en comparación con el modelo original y la línea base de pensamiento no fundamentado. En razonamiento espacial, los modelos de 4B con pensamiento visualmente fundamentado igualan y, en algunos casos, superan a Gemma3-27B-IT de la misma familia de modelos. Nuestro análisis muestra que la fundamentación por puntos es adecuada para el conteo, mientras que la fundamentación por cuadros delimitadores se beneficia más de las recompensas explícitas de fundamentación en tareas espaciales. En conjunto, nuestros resultados evidencian que los VLM piensan mejor cuando sus pensamientos intermedios están vinculados a las regiones de imagen que los hacen verdaderos.

English

Visual thinking should not only sound right; it should show its evidence. While recent vision-language models (VLMs) can produce natural-language reasoning traces, these traces often leave the supporting image regions implicit, making them hard to verify and difficult to supervise. We introduce visually grounded thinking, a reasoning process in which models interleave natural-language thoughts with explicit point or box groundings of the visual evidence used at each step. This lets the model express intermediate reasoning in language while grounding key objects in the image regions they refer to. To train this behavior, we construct a scalable synthesis pipeline that distills correct visual reasoning traces, extracts the visual objects required by the traces, grounds them with a SAM3-based agent, and derives aligned point and box supervision from the resulting masks. We further propose grounding-aware reinforcement learning, which combines answer correctness rewards with dense grounding rewards that score whether generated object references match the correct image evidence. Across two counting benchmarks and four spatial reasoning benchmarks, adding visually grounded thinking to Gemma3-4B-IT consistently improves performance over the original model and the non-grounded thinking baseline. On spatial reasoning, the visually grounded thinking 4B models match, and in some cases surpass, Gemma3-27B-IT from the same model family. Our analysis shows that point grounding is well suited to counting, while box grounding benefits most from explicit grounding rewards on spatial tasks. Overall, our results show that VLMs think better when their intermediate thoughts are tied to the image regions that make them true.