ChatPaper.aiChatPaper

CoV: 空間推論のための視点連鎖プロンプティング

CoV: Chain-of-View Prompting for Spatial Reasoning

January 8, 2026
著者: Haoyu Zhao, Akide Liu, Zeyu Zhang, Weijie Wang, Feng Chen, Ruihan Zhu, Gholamreza Haffari, Bohan Zhuang
cs.AI

要旨

3D環境における具象化質問応答(EQA)では、複数の視点に分散し部分的に遮蔽された文脈を収集する必要がしばしば生じる。しかし、最近の視覚言語モデル(VLM)の多くは、固定された有限の入力視点集合に制約されており、推論時に質問に関連する文脈を獲得する能力が制限され、複雑な空間推論を妨げている。本稿では、Chain-of-View(CoV)プロンプティングを提案する。これは学習不要のテスト時推論フレームワークであり、粗い探索から細かい探索へのプロセスを通じて、VLMを能動的な視点推論器に変える。CoVはまず、View Selectionエージェントを用いて冗長なフレームをフィルタリングし、質問に沿ったアンカービューを特定する。次に、反復推論と離散的なカメラ動作を交互に行うことで細粒度の視点調整を実行し、基礎となる3Dシーン表現から新しい観測結果を取得する。このプロセスは、十分な文脈が収集されるか、ステップ予算に達するまで継続する。 我々はCoVをOpenEQAで4つの主流VLMに対して評価し、LLM-Matchにおいて平均+11.56%、最大でQwen3-VL-Flashにおいて+13.62%の改善を達成した。CoVはさらにテスト時スケーリングを示し、最小アクション予算を増やすことで平均+2.51%の追加改善(Gemini-2.5-Flashでは最大+3.73%)が得られた。ScanQAとSQA3Dでは、CoVは強力な性能(例:ScanQAで116 CIDEr / 31.9 EM@1、SQA3Dで51.1 EM@1)を発揮した。全体として、これらの結果は、質問に沿った視点選択とオープンビュー探索の組み合わせが、追加の学習を必要とせずに3D EQAの空間推論を改善するための、効果的かつモデル非依存の戦略であることを示唆している。
English
Embodied question answering (EQA) in 3D environments often requires collecting context that is distributed across multiple viewpoints and partially occluded. However, most recent vision--language models (VLMs) are constrained to a fixed and finite set of input views, which limits their ability to acquire question-relevant context at inference time and hinders complex spatial reasoning. We propose Chain-of-View (CoV) prompting, a training-free, test-time reasoning framework that transforms a VLM into an active viewpoint reasoner through a coarse-to-fine exploration process. CoV first employs a View Selection agent to filter redundant frames and identify question-aligned anchor views. It then performs fine-grained view adjustment by interleaving iterative reasoning with discrete camera actions, obtaining new observations from the underlying 3D scene representation until sufficient context is gathered or a step budget is reached. We evaluate CoV on OpenEQA across four mainstream VLMs and obtain an average +11.56\% improvement in LLM-Match, with a maximum gain of +13.62\% on Qwen3-VL-Flash. CoV further exhibits test-time scaling: increasing the minimum action budget yields an additional +2.51\% average improvement, peaking at +3.73\% on Gemini-2.5-Flash. On ScanQA and SQA3D, CoV delivers strong performance (e.g., 116 CIDEr / 31.9 EM@1 on ScanQA and 51.1 EM@1 on SQA3D). Overall, these results suggest that question-aligned view selection coupled with open-view search is an effective, model-agnostic strategy for improving spatial reasoning in 3D EQA without additional training.
PDF41January 10, 2026