Denken met visuele grounding

Samenvatting

Visueel denken moet niet alleen juist klinken; het moet zijn bewijs tonen. Hoewel recente visie-taalmodellen (VLMs) natuurlijk-talige redeneersporen kunnen produceren, laten deze sporen de ondersteunende afbeeldingsgebieden vaak impliciet, waardoor ze moeilijk te verifiëren en lastig te superviseren zijn. Wij introduceren visueel verankerd denken, een redeneerproces waarin modellen natuurlijk-talige gedachten afwisselen met expliciete punt- of kaderverankeringen van het visuele bewijs dat bij elke stap wordt gebruikt. Dit stelt het model in staat om tussentijdse redeneringen in taal uit te drukken terwijl het sleutelobjecten verankert in de afbeeldingsgebieden waarnaar ze verwijzen. Om dit gedrag te trainen, bouwen we een schaalbare synthesepijplijn die correcte visuele redeneersporen destilleert, de vereiste visuele objecten uit de sporen extraheert, ze verankert met een op SAM3 gebaseerde agent, en uit de resulterende maskers afgestemde punt- en kadersupervisie afleidt. We stellen verder verankeringsbewust bekrachtigingsleren voor, dat beloningen voor antwoordcorrectheid combineert met dichte verankeringsbeloningen die beoordelen of gegenereerde objectverwijzingen overeenkomen met het juiste afbeeldingsbewijs. Over twee telbenchmarks en vier ruimtelijke redeneerbenchmarks verbetert het toevoegen van visueel verankerd denken aan Gemma3-4B-IT consistent de prestaties ten opzichte van het originele model en de niet-verankerde denkbaseline. Op ruimtelijk redeneren evenaren de visueel verankerde denkmodellen van 4B, en in sommige gevallen overtreffen ze, Gemma3-27B-IT uit dezelfde modelfamilie. Onze analyse toont aan dat puntverankering goed geschikt is voor tellen, terwijl kaderverankering het meeste baat heeft bij expliciete verankeringsbeloningen bij ruimtelijke taken. Over het geheel genomen tonen onze resultaten aan dat VLMs beter denken wanneer hun tussentijdse gedachten zijn gekoppeld aan de afbeeldingsgebieden die ze waar maken.

English

Visual thinking should not only sound right; it should show its evidence. While recent vision-language models (VLMs) can produce natural-language reasoning traces, these traces often leave the supporting image regions implicit, making them hard to verify and difficult to supervise. We introduce visually grounded thinking, a reasoning process in which models interleave natural-language thoughts with explicit point or box groundings of the visual evidence used at each step. This lets the model express intermediate reasoning in language while grounding key objects in the image regions they refer to. To train this behavior, we construct a scalable synthesis pipeline that distills correct visual reasoning traces, extracts the visual objects required by the traces, grounds them with a SAM3-based agent, and derives aligned point and box supervision from the resulting masks. We further propose grounding-aware reinforcement learning, which combines answer correctness rewards with dense grounding rewards that score whether generated object references match the correct image evidence. Across two counting benchmarks and four spatial reasoning benchmarks, adding visually grounded thinking to Gemma3-4B-IT consistently improves performance over the original model and the non-grounded thinking baseline. On spatial reasoning, the visually grounded thinking 4B models match, and in some cases surpass, Gemma3-27B-IT from the same model family. Our analysis shows that point grounding is well suited to counting, while box grounding benefits most from explicit grounding rewards on spatial tasks. Overall, our results show that VLMs think better when their intermediate thoughts are tied to the image regions that make them true.