Как и что воображать? Визуальное мышление в единых мультимодальных моделях для межракурсного пространственного рассуждения

Аннотация

Пространственное рассуждение между видами остаётся слабым местом зрительно-языковых моделей (VLM): они часто рассуждают на уровне языка и теряют детальную геометрию, необходимую для задачи. Рассуждение с помощью изображений направлено на решение этой проблемы путём генерации промежуточного мысленного образа, однако недавние работы показывают, что модели часто игнорируют визуальные свидетельства в этих следах. Поэтому мы ставим вопрос: как сделать визуальное мышление значимым и какой тип визуального мышления работает лучше всего. Мы исследуем эти вопросы в рамках унифицированных мультимодальных моделей (UMM), которые изначально поддерживают генерацию перемежающихся изображений и текста. Для первого вопроса мы предлагаем View Dropout (VDrop) — метод вмешательства на этапе обучения, который скрывает части одного входного вида из пространства ответа, оставляя их видимыми для токенов мысленного образа. Это побуждает модель использовать мысленный образ при ответе, вместо того чтобы полагаться только на входные виды. После того как мысленный образ используется для прогнозирования ответа, мы изучаем, какой тип визуального мышления наиболее эффективен. Мы формулируем это как компромисс между обучаемостью и информативностью и сравниваем три варианта мысленных образов: рендеринг сверху вниз, панорамный и с сопоставлением точек. Обученные на синтетических сценах и оценённые на пяти реальных внедоменных эталонных наборах данных, панорамное визуальное мышление с VDrop является единственной конфигурацией, которая одновременно информативна и обучаема, и она демонстрирует наилучшее обобщение на внедоменных данных.

English

Cross-view spatial reasoning remains a weak spot for vision-language models (VLMs): they often reason in language and lose the fine-grained geometry needed for the task. Thinking with images aims to address this by generating an intermediate thinking image, but recent work shows that models often ignore the visual evidence in these traces. We therefore ask how to make visual thinking matter, and what kind of visual thinking works best. We study these questions in unified multimodal models (UMMs), which natively support interleaved image-text generation. For the first question, we propose View Dropout (VDrop), a training-time intervention that hides parts of one input view from the answer span while keeping them visible to the thinking-image tokens. This encourages the model to use the thinking image when answering, instead of relying only on the input views. Once the thinking image is used for answer prediction, we study which type of visual thinking is most effective. We frame this as a learnability-informativeness tradeoff and compare three thinking-image variants: top-down, panoramic, and point-matching renderings. Trained on synthetic scenes and evaluated on five real-world out-of-domain benchmarks, panoramic visual thinking with VDrop is the only configuration that is both informative and learnable, and it achieves the best out-of-domain generalization.