ChatPaper.aiChatPaper

Осознанное рассуждение с учетом перспективы в моделях "зрение-язык" через симуляцию ментальных образов

Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation

April 24, 2025
Авторы: Phillip Y. Lee, Jihyeon Je, Chanho Park, Mikaela Angelina Uy, Leonidas Guibas, Minhyuk Sung
cs.AI

Аннотация

Мы представляем фреймворк для перспективно-ориентированного рассуждения в моделях "визуальный язык" (VLMs) через симуляцию ментальных образов. Способность к смене перспективы, то есть восприятие окружения или ситуации с альтернативной точки зрения, является ключевым критерием для визуального понимания на уровне человека, необходимым для взаимодействия с окружающей средой и сотрудничества с автономными агентами. Несмотря на прогресс в пространственном рассуждении в рамках VLMs, последние исследования показывают, что современные VLMs значительно уступают в способности к перспективно-ориентированному рассуждению и демонстрируют сильную склонность к эгоцентричным интерпретациям. Чтобы сократить разрыв между VLMs и человеческим восприятием, мы сосредоточились на роли ментальных образов, где люди воспринимают мир через абстрактные представления, способствующие смене перспективы. Вдохновленные этим, мы предлагаем фреймворк для перспективно-ориентированного рассуждения, названный Abstract Perspective Change (APC), который эффективно использует базовые модели компьютерного зрения, такие как обнаружение объектов, сегментация и оценка ориентации, для построения абстракций сцены и реализации преобразований перспективы. Наши эксперименты на синтетических и реальных изображениях, в сравнении с различными VLMs, демонстрируют значительные улучшения в перспективно-ориентированном рассуждении с использованием нашего фреймворка, превосходя как тонко настроенные модели пространственного рассуждения, так и подходы, основанные на синтезе новых видов.
English
We present a framework for perspective-aware reasoning in vision-language models (VLMs) through mental imagery simulation. Perspective-taking, the ability to perceive an environment or situation from an alternative viewpoint, is a key benchmark for human-level visual understanding, essential for environmental interaction and collaboration with autonomous agents. Despite advancements in spatial reasoning within VLMs, recent research has shown that modern VLMs significantly lack perspective-aware reasoning capabilities and exhibit a strong bias toward egocentric interpretations. To bridge the gap between VLMs and human perception, we focus on the role of mental imagery, where humans perceive the world through abstracted representations that facilitate perspective shifts. Motivated by this, we propose a framework for perspective-aware reasoning, named Abstract Perspective Change (APC), that effectively leverages vision foundation models, such as object detection, segmentation, and orientation estimation, to construct scene abstractions and enable perspective transformations. Our experiments on synthetic and real-image benchmarks, compared with various VLMs, demonstrate significant improvements in perspective-aware reasoning with our framework, further outperforming fine-tuned spatial reasoning models and novel-view-synthesis-based approaches.

Summary

AI-Generated Summary

PDF273April 25, 2025