Razonamiento Consciente de la Perspectiva en Modelos de Visión-Lenguaje mediante Simulación de Imágenes Mentales

Resumen

Presentamos un marco para el razonamiento consciente de la perspectiva en modelos de visión y lenguaje (VLMs) mediante la simulación de imágenes mentales. La toma de perspectiva, la capacidad de percibir un entorno o situación desde un punto de vista alternativo, es un criterio clave para la comprensión visual a nivel humano, esencial para la interacción con el entorno y la colaboración con agentes autónomos. A pesar de los avances en el razonamiento espacial dentro de los VLMs, investigaciones recientes han demostrado que los VLMs modernos carecen significativamente de capacidades de razonamiento consciente de la perspectiva y muestran un fuerte sesgo hacia interpretaciones egocéntricas. Para cerrar la brecha entre los VLMs y la percepción humana, nos centramos en el papel de las imágenes mentales, donde los humanos perciben el mundo a través de representaciones abstractas que facilitan los cambios de perspectiva. Motivados por esto, proponemos un marco para el razonamiento consciente de la perspectiva, denominado Cambio de Perspectiva Abstracta (APC), que aprovecha eficazmente modelos fundamentales de visión, como la detección de objetos, la segmentación y la estimación de orientación, para construir abstracciones de escenas y permitir transformaciones de perspectiva. Nuestros experimentos en benchmarks sintéticos y de imágenes reales, comparados con varios VLMs, demuestran mejoras significativas en el razonamiento consciente de la perspectiva con nuestro marco, superando además modelos de razonamiento espacial ajustados y enfoques basados en la síntesis de nuevas vistas.

English

We present a framework for perspective-aware reasoning in vision-language models (VLMs) through mental imagery simulation. Perspective-taking, the ability to perceive an environment or situation from an alternative viewpoint, is a key benchmark for human-level visual understanding, essential for environmental interaction and collaboration with autonomous agents. Despite advancements in spatial reasoning within VLMs, recent research has shown that modern VLMs significantly lack perspective-aware reasoning capabilities and exhibit a strong bias toward egocentric interpretations. To bridge the gap between VLMs and human perception, we focus on the role of mental imagery, where humans perceive the world through abstracted representations that facilitate perspective shifts. Motivated by this, we propose a framework for perspective-aware reasoning, named Abstract Perspective Change (APC), that effectively leverages vision foundation models, such as object detection, segmentation, and orientation estimation, to construct scene abstractions and enable perspective transformations. Our experiments on synthetic and real-image benchmarks, compared with various VLMs, demonstrate significant improvements in perspective-aware reasoning with our framework, further outperforming fine-tuned spatial reasoning models and novel-view-synthesis-based approaches.

Razonamiento Consciente de la Perspectiva en Modelos de Visión-Lenguaje mediante Simulación de Imágenes Mentales

Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation

Resumen

Support