ChatPaper.aiChatPaper

CoV : Prompting en Chaîne de Vues pour le Raisonnement Spatial

CoV: Chain-of-View Prompting for Spatial Reasoning

January 8, 2026
papers.authors: Haoyu Zhao, Akide Liu, Zeyu Zhang, Weijie Wang, Feng Chen, Ruihan Zhu, Gholamreza Haffari, Bohan Zhuang
cs.AI

papers.abstract

La réponse à des questions incarnées (EQA) dans des environnements 3D nécessite souvent de collecter un contexte distribué sur plusieurs points de vue et partiellement occulté. Cependant, la plupart des modèles vision-langage (VLM) récents se limitent à un ensemble fixe et fini de vues en entrée, ce qui restreint leur capacité à acquérir un contexte pertinent pour la question au moment de l'inférence et entrave le raisonnement spatial complexe. Nous proposons l'incitation en Chaîne-de-Vues (CoV), un cadre de raisonnement sans entraînement, utilisé au moment du test, qui transforme un VLM en un raisonneur actif de points de vue via un processus d'exploration du grossier au fin. CoV utilise d'abord un agent de Sélection de Vue pour filtrer les images redondantes et identifier des vues d'ancrage alignées avec la question. Il effectue ensuite un ajustement fin de la vue en entrelaçant un raisonnement itératif avec des actions discrètes de caméra, obtenant de nouvelles observations à partir de la représentation sous-jacente de la scène 3D jusqu'à ce qu'un contexte suffisant soit rassemblé ou qu'un budget d'étapes soit atteint. Nous évaluons CoV sur OpenEQA avec quatre VLMs grand public et obtenons une amélioration moyenne de +11,56 % en LLM-Match, avec un gain maximal de +13,62 % sur Qwen3-VL-Flash. CoV montre également une mise à l'échelle au moment du test : augmenter le budget d'actions minimal procure une amélioration moyenne supplémentaire de +2,51 %, culminant à +3,73 % sur Gemini-2.5-Flash. Sur ScanQA et SQA3D, CoV offre de solides performances (par exemple, 116 CIDEr / 31,9 EM@1 sur ScanQA et 51,1 EM@1 sur SQA3D). Globalement, ces résultats suggèrent que la sélection de vues alignée avec la question, couplée à une recherche en vue ouverte, est une stratégie efficace et agnostique au modèle pour améliorer le raisonnement spatial dans l'EQA 3D sans entraînement supplémentaire.
English
Embodied question answering (EQA) in 3D environments often requires collecting context that is distributed across multiple viewpoints and partially occluded. However, most recent vision--language models (VLMs) are constrained to a fixed and finite set of input views, which limits their ability to acquire question-relevant context at inference time and hinders complex spatial reasoning. We propose Chain-of-View (CoV) prompting, a training-free, test-time reasoning framework that transforms a VLM into an active viewpoint reasoner through a coarse-to-fine exploration process. CoV first employs a View Selection agent to filter redundant frames and identify question-aligned anchor views. It then performs fine-grained view adjustment by interleaving iterative reasoning with discrete camera actions, obtaining new observations from the underlying 3D scene representation until sufficient context is gathered or a step budget is reached. We evaluate CoV on OpenEQA across four mainstream VLMs and obtain an average +11.56\% improvement in LLM-Match, with a maximum gain of +13.62\% on Qwen3-VL-Flash. CoV further exhibits test-time scaling: increasing the minimum action budget yields an additional +2.51\% average improvement, peaking at +3.73\% on Gemini-2.5-Flash. On ScanQA and SQA3D, CoV delivers strong performance (e.g., 116 CIDEr / 31.9 EM@1 on ScanQA and 51.1 EM@1 on SQA3D). Overall, these results suggest that question-aligned view selection coupled with open-view search is an effective, model-agnostic strategy for improving spatial reasoning in 3D EQA without additional training.
PDF41January 10, 2026