ChatPaper.aiChatPaper

Raciocínio Consciente da Perspectiva em Modelos de Visão e Linguagem por meio de Simulação de Imaginação Mental

Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation

April 24, 2025
Autores: Phillip Y. Lee, Jihyeon Je, Chanho Park, Mikaela Angelina Uy, Leonidas Guibas, Minhyuk Sung
cs.AI

Resumo

Apresentamos um framework para raciocínio consciente da perspectiva em modelos de visão e linguagem (VLMs) por meio da simulação de imagens mentais. A tomada de perspectiva, a capacidade de perceber um ambiente ou situação a partir de um ponto de vista alternativo, é um marco essencial para o entendimento visual em nível humano, crucial para a interação com o ambiente e colaboração com agentes autônomos. Apesar dos avanços no raciocínio espacial em VLMs, pesquisas recentes mostraram que os VLMs modernos carecem significativamente de capacidades de raciocínio consciente da perspectiva e exibem um forte viés em direção a interpretações egocêntricas. Para reduzir a lacuna entre VLMs e a percepção humana, focamos no papel das imagens mentais, em que os humanos percebem o mundo por meio de representações abstratas que facilitam mudanças de perspectiva. Motivados por isso, propomos um framework para raciocínio consciente da perspectiva, denominado Mudança de Perspectiva Abstrata (APC), que aproveita efetivamente modelos de base de visão, como detecção de objetos, segmentação e estimativa de orientação, para construir abstrações de cena e permitir transformações de perspectiva. Nossos experimentos em benchmarks de imagens sintéticas e reais, comparados com vários VLMs, demonstram melhorias significativas no raciocínio consciente da perspectiva com nosso framework, superando ainda modelos de raciocínio espacial ajustados e abordagens baseadas em síntese de novas visões.
English
We present a framework for perspective-aware reasoning in vision-language models (VLMs) through mental imagery simulation. Perspective-taking, the ability to perceive an environment or situation from an alternative viewpoint, is a key benchmark for human-level visual understanding, essential for environmental interaction and collaboration with autonomous agents. Despite advancements in spatial reasoning within VLMs, recent research has shown that modern VLMs significantly lack perspective-aware reasoning capabilities and exhibit a strong bias toward egocentric interpretations. To bridge the gap between VLMs and human perception, we focus on the role of mental imagery, where humans perceive the world through abstracted representations that facilitate perspective shifts. Motivated by this, we propose a framework for perspective-aware reasoning, named Abstract Perspective Change (APC), that effectively leverages vision foundation models, such as object detection, segmentation, and orientation estimation, to construct scene abstractions and enable perspective transformations. Our experiments on synthetic and real-image benchmarks, compared with various VLMs, demonstrate significant improvements in perspective-aware reasoning with our framework, further outperforming fine-tuned spatial reasoning models and novel-view-synthesis-based approaches.

Summary

AI-Generated Summary

PDF273April 25, 2025