CoV: 공간 추론을 위한 시각적 연쇄 프롬프팅
CoV: Chain-of-View Prompting for Spatial Reasoning
January 8, 2026
저자: Haoyu Zhao, Akide Liu, Zeyu Zhang, Weijie Wang, Feng Chen, Ruihan Zhu, Gholamreza Haffari, Bohan Zhuang
cs.AI
초록
3D 환경에서 구현된 질의응답(EQA)은 종종 여러 시점에 분산되고 부분적으로 가려진 맥락을 수집해야 합니다. 그러나 최근의 대부분의 시각-언어 모델(VLM)은 고정되고 제한된 입력 시점 집합에 제약을 받아, 추론 시 질문 관련 맥락을 획득하는 능력을 제한하고 복잡한 공간 추론을 방해합니다. 우리는 Coarse-to-fine 탐색 과정을 통해 VLM을 능동적인 시점 추론기로 변환하는 훈련 불필요( training-free) 테스트 타임 추론 프레임워크인 Chain-of-View(CoV) 프롬프팅을 제안합니다. CoV는 먼저 View Selection 에이전트를 사용하여 중복 프레임을 걸러내고 질문과 일치하는 앵커 뷰(anchor view)를 식별합니다. 그런 다음 반복적 추론과 이산적인 카메라 액션을 교차하며 세밀한 뷰 조정을 수행하여, 충분한 맥락이 수집되거나 단계 예산(step budget)에 도달할 때까지 기본 3D 장면 표현으로부터 새로운 관측값을 얻습니다.
우리는 4가지 주류 VLM에 대해 OpenEQA에서 CoV를 평가했으며, LLM-Match에서 평균 +11.56%의 개선을 얻었고, Qwen3-VL-Flash에서는 최대 +13.62%의 향상을 기록했습니다. CoV는 추가로 테스트 타임 스케일링(test-time scaling)을 보여주었습니다: 최소 액션 예산을 증가시키면 평균 +2.51%의 추가 개선이 발생했으며, Gemini-2.5-Flash에서는 +3.73%로 정점을 찍었습니다. ScanQA와 SQA3D에서 CoV는 강력한 성능(예: ScanQA에서 116 CIDEr / 31.9 EM@1, SQA3D에서 51.1 EM@1)을 제공했습니다. 전반적으로, 이러한 결과는 질문과 일치하는 뷰 선택과 개방형 뷰 탐색(open-view search)을 결합하는 것이 추가 훈련 없이 3D EQA의 공간 추론을 개선하는 효과적이고 모델에 구애받지 않는(model-agnostic) 전략임을 시사합니다.
English
Embodied question answering (EQA) in 3D environments often requires collecting context that is distributed across multiple viewpoints and partially occluded. However, most recent vision--language models (VLMs) are constrained to a fixed and finite set of input views, which limits their ability to acquire question-relevant context at inference time and hinders complex spatial reasoning. We propose Chain-of-View (CoV) prompting, a training-free, test-time reasoning framework that transforms a VLM into an active viewpoint reasoner through a coarse-to-fine exploration process. CoV first employs a View Selection agent to filter redundant frames and identify question-aligned anchor views. It then performs fine-grained view adjustment by interleaving iterative reasoning with discrete camera actions, obtaining new observations from the underlying 3D scene representation until sufficient context is gathered or a step budget is reached.
We evaluate CoV on OpenEQA across four mainstream VLMs and obtain an average +11.56\% improvement in LLM-Match, with a maximum gain of +13.62\% on Qwen3-VL-Flash. CoV further exhibits test-time scaling: increasing the minimum action budget yields an additional +2.51\% average improvement, peaking at +3.73\% on Gemini-2.5-Flash. On ScanQA and SQA3D, CoV delivers strong performance (e.g., 116 CIDEr / 31.9 EM@1 on ScanQA and 51.1 EM@1 on SQA3D). Overall, these results suggest that question-aligned view selection coupled with open-view search is an effective, model-agnostic strategy for improving spatial reasoning in 3D EQA without additional training.