Мышление с визуальной привязкой

Аннотация

Визуальное мышление должно не только выглядеть правдоподобно, но и предъявлять свои доказательства. Хотя современные модели зрения-языка (VLM) способны генерировать цепочки рассуждений на естественном языке, эти цепочки часто оставляют опорные области изображения неявными, что затрудняет их проверку и контроль. Мы вводим визуально обоснованное мышление — процесс рассуждения, в котором модели чередуют мысли на естественном языке с явными точечными или прямоугольными привязками к визуальным свидетельствам, используемым на каждом шаге. Это позволяет модели выражать промежуточные рассуждения на языке, одновременно привязывая ключевые объекты к тем областям изображения, на которые они ссылаются. Для обучения такого поведения мы создаем масштабируемый конвейер синтеза, который дистиллирует корректные трассы визуальных рассуждений, извлекает требуемые в трассах визуальные объекты, привязывает их с помощью агента на основе SAM3 и выводит согласованные точечные и прямоугольные сигналы обучения из полученных масок. Кроме того, мы предлагаем усиленное обучение с учетом привязки, которое объединяет награды за правильность ответов с плотными наградами за привязку, оценивающими, соответствуют ли сгенерированные ссылки на объекты правильным визуальным свидетельствам. На двух бенчмарках подсчета и четырех бенчмарках пространственных рассуждений добавление визуально обоснованного мышления к модели Gemma3-4B-IT последовательно улучшает производительность по сравнению с исходной моделью и базовой линией без обоснованного мышления. В пространственных рассуждениях модели с визуально обоснованным мышлением на 4B параметров достигают, а в некоторых случаях и превосходят, модель Gemma3-27B-IT из того же семейства моделей. Наш анализ показывает, что точечная привязка хорошо подходит для подсчета, в то время как прямоугольная привязка получает наибольшую выгоду от явных наград за привязку в пространственных задачах. В целом, наши результаты показывают, что VLM мыслят лучше, когда их промежуточные мысли связаны с теми областями изображения, которые делают их истинными.

English

Visual thinking should not only sound right; it should show its evidence. While recent vision-language models (VLMs) can produce natural-language reasoning traces, these traces often leave the supporting image regions implicit, making them hard to verify and difficult to supervise. We introduce visually grounded thinking, a reasoning process in which models interleave natural-language thoughts with explicit point or box groundings of the visual evidence used at each step. This lets the model express intermediate reasoning in language while grounding key objects in the image regions they refer to. To train this behavior, we construct a scalable synthesis pipeline that distills correct visual reasoning traces, extracts the visual objects required by the traces, grounds them with a SAM3-based agent, and derives aligned point and box supervision from the resulting masks. We further propose grounding-aware reinforcement learning, which combines answer correctness rewards with dense grounding rewards that score whether generated object references match the correct image evidence. Across two counting benchmarks and four spatial reasoning benchmarks, adding visually grounded thinking to Gemma3-4B-IT consistently improves performance over the original model and the non-grounded thinking baseline. On spatial reasoning, the visually grounded thinking 4B models match, and in some cases surpass, Gemma3-27B-IT from the same model family. Our analysis shows that point grounding is well suited to counting, while box grounding benefits most from explicit grounding rewards on spatial tasks. Overall, our results show that VLMs think better when their intermediate thoughts are tied to the image regions that make them true.