Denken mit visueller Verankerung

Zusammenfassung

Visuelles Denken sollte nicht nur richtig klingen, sondern auch seine Beweise zeigen. Während aktuelle Vision-Language-Modelle (VLMs) natürlichsprachliche Argumentationsspuren erzeugen können, bleiben die zugrundeliegenden Bildregionen in diesen Spuren oft implizit, was ihre Überprüfung und Überwachung erschwert. Wir führen visuell verankertes Denken ein – einen Argumentationsprozess, bei dem Modelle natürlichsprachliche Gedanken mit expliziten Punkt- oder Box-Verankerungen der visuellen Evidenz verschränken, die in jedem Schritt verwendet wird. Dies ermöglicht es dem Modell, Zwischenschlüsse in Sprache auszudrücken und gleichzeitig Schlüsselobjekte in den Bildregionen zu verankern, auf die sie sich beziehen. Um dieses Verhalten zu trainieren, konstruieren wir eine skalierbare Synthese-Pipeline, die korrekte visuelle Argumentationsspuren destilliert, die von den Spuren benötigten visuellen Objekte extrahiert, diese mit einem SAM3-basierten Agenten verankert und aus den resultierenden Masken abgestimmte Punkt- und Box-Überwachung ableitet. Wir schlagen weiterhin verankerungsbewusstes Reinforcement Learning vor, das Belohnungen für Antwortkorrektheit mit dichten Verankerungsbelohnungen kombiniert, die bewerten, ob generierte Objektreferenzen mit der korrekten Bildevidenz übereinstimmen. Über zwei Zähl-Benchmarks und vier räumliche Reasoning-Benchmarks hinweg verbessert das Hinzufügen von visuell verankertem Denken zu Gemma3-4B-IT durchgängig die Leistung im Vergleich zum ursprünglichen Modell und der Baseline ohne verankertes Denken. Bei räumlichem Reasoning erreichen die 4B-Modelle mit visuell verankertem Denken die Leistung von Gemma3-27B-IT aus derselben Modellfamilie und übertreffen sie in einigen Fällen. Unsere Analyse zeigt, dass Punktverankerung gut für Zählaufgaben geeignet ist, während Boxverankerung am meisten von expliziten Verankerungsbelohnungen bei räumlichen Aufgaben profitiert. Insgesamt zeigen unsere Ergebnisse, dass VLMs besser denken, wenn ihre Zwischengedanken an die Bildregionen gebunden sind, die sie wahr machen.

English

Visual thinking should not only sound right; it should show its evidence. While recent vision-language models (VLMs) can produce natural-language reasoning traces, these traces often leave the supporting image regions implicit, making them hard to verify and difficult to supervise. We introduce visually grounded thinking, a reasoning process in which models interleave natural-language thoughts with explicit point or box groundings of the visual evidence used at each step. This lets the model express intermediate reasoning in language while grounding key objects in the image regions they refer to. To train this behavior, we construct a scalable synthesis pipeline that distills correct visual reasoning traces, extracts the visual objects required by the traces, grounds them with a SAM3-based agent, and derives aligned point and box supervision from the resulting masks. We further propose grounding-aware reinforcement learning, which combines answer correctness rewards with dense grounding rewards that score whether generated object references match the correct image evidence. Across two counting benchmarks and four spatial reasoning benchmarks, adding visually grounded thinking to Gemma3-4B-IT consistently improves performance over the original model and the non-grounded thinking baseline. On spatial reasoning, the visually grounded thinking 4B models match, and in some cases surpass, Gemma3-27B-IT from the same model family. Our analysis shows that point grounding is well suited to counting, while box grounding benefits most from explicit grounding rewards on spatial tasks. Overall, our results show that VLMs think better when their intermediate thoughts are tied to the image regions that make them true.