ChatPaper.aiChatPaper

Ragionamento Consapevole della Prospettiva nei Modelli Visione-Linguaggio tramite Simulazione di Immaginazione Mentale

Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation

April 24, 2025
Autori: Phillip Y. Lee, Jihyeon Je, Chanho Park, Mikaela Angelina Uy, Leonidas Guibas, Minhyuk Sung
cs.AI

Abstract

Presentiamo un framework per il ragionamento consapevole della prospettiva nei modelli visione-linguaggio (VLMs) attraverso la simulazione di immagini mentali. L'assunzione di prospettiva, ovvero la capacità di percepire un ambiente o una situazione da un punto di vista alternativo, rappresenta un parametro fondamentale per la comprensione visiva di livello umano, essenziale per l'interazione con l'ambiente e la collaborazione con agenti autonomi. Nonostante i progressi nel ragionamento spaziale all'interno dei VLMs, ricerche recenti hanno dimostrato che i moderni VLMs presentano una significativa carenza nelle capacità di ragionamento consapevole della prospettiva e mostrano una forte tendenza verso interpretazioni egocentriche. Per colmare il divario tra i VLMs e la percezione umana, ci concentriamo sul ruolo delle immagini mentali, attraverso le quali gli esseri umani percepiscono il mondo mediante rappresentazioni astratte che facilitano i cambiamenti di prospettiva. Motivati da ciò, proponiamo un framework per il ragionamento consapevole della prospettiva, denominato Abstract Perspective Change (APC), che sfrutta efficacemente modelli di base per la visione, come il rilevamento di oggetti, la segmentazione e la stima dell'orientamento, per costruire astrazioni di scene e abilitare trasformazioni prospettiche. I nostri esperimenti su benchmark sintetici e con immagini reali, confrontati con vari VLMs, dimostrano significativi miglioramenti nel ragionamento consapevole della prospettiva con il nostro framework, superando ulteriormente modelli di ragionamento spaziale ottimizzati e approcci basati sulla sintesi di nuove viste.
English
We present a framework for perspective-aware reasoning in vision-language models (VLMs) through mental imagery simulation. Perspective-taking, the ability to perceive an environment or situation from an alternative viewpoint, is a key benchmark for human-level visual understanding, essential for environmental interaction and collaboration with autonomous agents. Despite advancements in spatial reasoning within VLMs, recent research has shown that modern VLMs significantly lack perspective-aware reasoning capabilities and exhibit a strong bias toward egocentric interpretations. To bridge the gap between VLMs and human perception, we focus on the role of mental imagery, where humans perceive the world through abstracted representations that facilitate perspective shifts. Motivated by this, we propose a framework for perspective-aware reasoning, named Abstract Perspective Change (APC), that effectively leverages vision foundation models, such as object detection, segmentation, and orientation estimation, to construct scene abstractions and enable perspective transformations. Our experiments on synthetic and real-image benchmarks, compared with various VLMs, demonstrate significant improvements in perspective-aware reasoning with our framework, further outperforming fine-tuned spatial reasoning models and novel-view-synthesis-based approaches.

Summary

AI-Generated Summary

PDF273April 25, 2025