ChatPaper.aiChatPaper

CoV: Chain-of-View-Prompting für räumliches Schließen

CoV: Chain-of-View Prompting for Spatial Reasoning

January 8, 2026
papers.authors: Haoyu Zhao, Akide Liu, Zeyu Zhang, Weijie Wang, Feng Chen, Ruihan Zhu, Gholamreza Haffari, Bohan Zhuang
cs.AI

papers.abstract

Embodied Question Answering (EQA) in 3D-Umgebungen erfordert häufig das Erfassen von Kontext, der über mehrere Blickwinkel verteilt und teilweise verdeckt ist. Die meisten aktuellen Vision-Language-Modelle (VLMs) sind jedoch auf eine feste und endliche Menge von Eingabeansichten beschränkt, was ihre Fähigkeit einschränkt, zur Inferenzzeit fragerelevanten Kontext zu erfassen, und komplexes räumliches Denken behindert. Wir schlagen Chain-of-View (CoV) Prompting vor, ein trainingsfreies Reasoning-Framework zur Testzeit, das ein VLM durch einen grob- bis feingranularen Explorationsprozess in einen aktiven Blickpunkt-Reasoner verwandelt. CoV setzt zunächst einen View Selection-Agenten ein, um redundante Frames herauszufiltern und fragespezifische Ankeransichten zu identifizieren. Anschließend führt es eine feingranulare Ansichtsanpassung durch, indem es iteratives Reasoning mit diskreten Kamerabewegungen verschachtelt, um neue Beobachtungen aus der zugrundeliegenden 3D-Szenendarstellung zu erhalten, bis ausreichend Kontext gesammelt ist oder ein Schrittbudget erschöpft ist. Wir evaluieren CoV auf OpenEQA mit vier gängigen VLMs und erzielen eine durchschnittliche Verbesserung von +11,56 % im LLM-Match, mit einem maximalen Zuwachs von +13,62 % bei Qwen3-VL-Flash. CoV zeigt weiterhin Skalierung zur Testzeit: Eine Erhöhung des minimalen Aktionsbudgets führt zu einer zusätzlichen durchschnittlichen Verbesserung von +2,51 %, die bei Gemini-2.5-Flash mit +3,73 % ihren Höhepunkt erreicht. Auf ScanQA und SQA3D liefert CoV eine starke Leistung (z. B. 116 CIDEr / 31,9 EM@1 auf ScanQA und 51,1 EM@1 auf SQA3D). Insgesamt deuten diese Ergebnisse darauf hin, dass eine fragespezifische Ansichtsauswahl in Kombination mit einer offenen Ansichtssuche eine effektive, modellagnostische Strategie zur Verbesserung des räumlichen Denkens in 3D-EQA ohne zusätzliches Training ist.
English
Embodied question answering (EQA) in 3D environments often requires collecting context that is distributed across multiple viewpoints and partially occluded. However, most recent vision--language models (VLMs) are constrained to a fixed and finite set of input views, which limits their ability to acquire question-relevant context at inference time and hinders complex spatial reasoning. We propose Chain-of-View (CoV) prompting, a training-free, test-time reasoning framework that transforms a VLM into an active viewpoint reasoner through a coarse-to-fine exploration process. CoV first employs a View Selection agent to filter redundant frames and identify question-aligned anchor views. It then performs fine-grained view adjustment by interleaving iterative reasoning with discrete camera actions, obtaining new observations from the underlying 3D scene representation until sufficient context is gathered or a step budget is reached. We evaluate CoV on OpenEQA across four mainstream VLMs and obtain an average +11.56\% improvement in LLM-Match, with a maximum gain of +13.62\% on Qwen3-VL-Flash. CoV further exhibits test-time scaling: increasing the minimum action budget yields an additional +2.51\% average improvement, peaking at +3.73\% on Gemini-2.5-Flash. On ScanQA and SQA3D, CoV delivers strong performance (e.g., 116 CIDEr / 31.9 EM@1 on ScanQA and 51.1 EM@1 on SQA3D). Overall, these results suggest that question-aligned view selection coupled with open-view search is an effective, model-agnostic strategy for improving spatial reasoning in 3D EQA without additional training.
PDF41January 10, 2026