Penser avec ancrage visuel

Résumé

La pensée visuelle ne doit pas seulement paraître juste ; elle doit montrer ses preuves. Bien que les récents modèles vision-langage (VLM) puissent générer des traces de raisonnement en langage naturel, ces traces laissent souvent implicites les régions d'image de soutien, ce qui les rend difficiles à vérifier et à superviser. Nous introduisons la pensée visuellement ancrée, un processus de raisonnement dans lequel les modèles entremêlent des réflexions en langage naturel avec des ancrages explicites (points ou boîtes) des preuves visuelles utilisées à chaque étape. Cela permet au modèle d'exprimer un raisonnement intermédiaire en langage tout en ancrant des objets clés dans les régions d'image auxquelles ils se réfèrent. Pour entraîner ce comportement, nous construisons un pipeline de synthèse évolutif qui distille des traces de raisonnement visuel correctes, extrait les objets visuels requis par ces traces, les ancre à l'aide d'un agent basé sur SAM3, et dérive une supervision alignée de points et de boîtes à partir des masques résultants. Nous proposons également un apprentissage par renforcement sensible à l'ancrage, qui combine des récompenses de justesse des réponses avec des récompenses d'ancrage denses évaluant si les références d'objets générées correspondent aux preuves visuelles correctes. Sur deux benchmarks de comptage et quatre benchmarks de raisonnement spatial, l'ajout d'une pensée visuellement ancrée à Gemma3-4B-IT améliore systématiquement les performances par rapport au modèle original et à la baseline de pensée non ancrée. En raisonnement spatial, les modèles à 4B avec pensée visuellement ancrée égalent, et dans certains cas surpassent, Gemma3-27B-IT de la même famille de modèles. Notre analyse montre que l'ancrage par points est bien adapté au comptage, tandis que l'ancrage par boîtes bénéficie le plus des récompenses d'ancrage explicites dans les tâches spatiales. Dans l'ensemble, nos résultats montrent que les VLM pensent mieux lorsque leurs pensées intermédiaires sont liées aux régions d'image qui les rendent vraies.

English

Visual thinking should not only sound right; it should show its evidence. While recent vision-language models (VLMs) can produce natural-language reasoning traces, these traces often leave the supporting image regions implicit, making them hard to verify and difficult to supervise. We introduce visually grounded thinking, a reasoning process in which models interleave natural-language thoughts with explicit point or box groundings of the visual evidence used at each step. This lets the model express intermediate reasoning in language while grounding key objects in the image regions they refer to. To train this behavior, we construct a scalable synthesis pipeline that distills correct visual reasoning traces, extracts the visual objects required by the traces, grounds them with a SAM3-based agent, and derives aligned point and box supervision from the resulting masks. We further propose grounding-aware reinforcement learning, which combines answer correctness rewards with dense grounding rewards that score whether generated object references match the correct image evidence. Across two counting benchmarks and four spatial reasoning benchmarks, adding visually grounded thinking to Gemma3-4B-IT consistently improves performance over the original model and the non-grounded thinking baseline. On spatial reasoning, the visually grounded thinking 4B models match, and in some cases surpass, Gemma3-27B-IT from the same model family. Our analysis shows that point grounding is well suited to counting, while box grounding benefits most from explicit grounding rewards on spatial tasks. Overall, our results show that VLMs think better when their intermediate thoughts are tied to the image regions that make them true.