Razonamiento Consciente de la Perspectiva en Modelos de Visión-Lenguaje mediante Simulación de Imágenes Mentales
Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation
April 24, 2025
Autores: Phillip Y. Lee, Jihyeon Je, Chanho Park, Mikaela Angelina Uy, Leonidas Guibas, Minhyuk Sung
cs.AI
Resumen
Presentamos un marco para el razonamiento consciente de la perspectiva en modelos de visión y lenguaje (VLMs) mediante la simulación de imágenes mentales. La toma de perspectiva, la capacidad de percibir un entorno o situación desde un punto de vista alternativo, es un criterio clave para la comprensión visual a nivel humano, esencial para la interacción con el entorno y la colaboración con agentes autónomos. A pesar de los avances en el razonamiento espacial dentro de los VLMs, investigaciones recientes han demostrado que los VLMs modernos carecen significativamente de capacidades de razonamiento consciente de la perspectiva y muestran un fuerte sesgo hacia interpretaciones egocéntricas. Para cerrar la brecha entre los VLMs y la percepción humana, nos centramos en el papel de las imágenes mentales, donde los humanos perciben el mundo a través de representaciones abstractas que facilitan los cambios de perspectiva. Motivados por esto, proponemos un marco para el razonamiento consciente de la perspectiva, denominado Cambio de Perspectiva Abstracta (APC), que aprovecha eficazmente modelos fundamentales de visión, como la detección de objetos, la segmentación y la estimación de orientación, para construir abstracciones de escenas y permitir transformaciones de perspectiva. Nuestros experimentos en benchmarks sintéticos y de imágenes reales, comparados con varios VLMs, demuestran mejoras significativas en el razonamiento consciente de la perspectiva con nuestro marco, superando además modelos de razonamiento espacial ajustados y enfoques basados en la síntesis de nuevas vistas.
English
We present a framework for perspective-aware reasoning in vision-language
models (VLMs) through mental imagery simulation. Perspective-taking, the
ability to perceive an environment or situation from an alternative viewpoint,
is a key benchmark for human-level visual understanding, essential for
environmental interaction and collaboration with autonomous agents. Despite
advancements in spatial reasoning within VLMs, recent research has shown that
modern VLMs significantly lack perspective-aware reasoning capabilities and
exhibit a strong bias toward egocentric interpretations. To bridge the gap
between VLMs and human perception, we focus on the role of mental imagery,
where humans perceive the world through abstracted representations that
facilitate perspective shifts. Motivated by this, we propose a framework for
perspective-aware reasoning, named Abstract Perspective Change (APC), that
effectively leverages vision foundation models, such as object detection,
segmentation, and orientation estimation, to construct scene abstractions and
enable perspective transformations. Our experiments on synthetic and real-image
benchmarks, compared with various VLMs, demonstrate significant improvements in
perspective-aware reasoning with our framework, further outperforming
fine-tuned spatial reasoning models and novel-view-synthesis-based approaches.Summary
AI-Generated Summary