CoV: Цепочка визуальных подсказок для пространственного мышления
CoV: Chain-of-View Prompting for Spatial Reasoning
January 8, 2026
Авторы: Haoyu Zhao, Akide Liu, Zeyu Zhang, Weijie Wang, Feng Chen, Ruihan Zhu, Gholamreza Haffari, Bohan Zhuang
cs.AI
Аннотация
Ответы на вопросы в трехмерных средах с физическим взаимодействием (EQA) часто требуют сбора контекста, распределенного между множественными точками обзора и частично перекрытого. Однако большинство современных моделей "зрение-язык" (VLM) ограничены фиксированным и конечным набором входных видов, что ограничивает их способность получать релевантный вопросу контекст во время вывода и затрудняет сложное пространственное рассуждение. Мы предлагаем метод Chain-of-View (CoV) — не требующий обучения фреймворк для рассуждений во время тестирования, который превращает VLM в активный анализатор точек обзора через процесс исследования от грубого к точному. CoV сначала использует агент выбора обзора для фильтрации избыточных кадров и идентификации якорных видов, согласованных с вопросом. Затем выполняется точная настройка обзора путем чередования итеративных рассуждений с дискретными действиями камеры, получая новые наблюдения из базового представления 3D-сцены до тех пор, пока не будет собран достаточный контекст или не будет достигнут лимит шагов.
Мы оцениваем CoV на OpenEQA с использованием четырех основных VLM и получаем среднее улучшение +11,56% по метрике LLM-Match, с максимальным приростом +13,62% на Qwen3-VL-Flash. CoV также демонстрирует масштабируемость во время тестирования: увеличение минимального бюджета действий дает дополнительное среднее улучшение +2,51%, достигая пика в +3,73% на Gemini-2.5-Flash. На ScanQA и SQA3D CoV показывает высокую производительность (например, 116 CIDEr / 31,9 EM@1 на ScanQA и 51,1 EM@1 на SQA3D). В целом, эти результаты свидетельствуют о том, что выбор обзора, согласованный с вопросом, в сочетании с поиском в открытом пространстве видов является эффективной, модельно-независимой стратегией для улучшения пространственного мышления в 3D EQA без дополнительного обучения.
English
Embodied question answering (EQA) in 3D environments often requires collecting context that is distributed across multiple viewpoints and partially occluded. However, most recent vision--language models (VLMs) are constrained to a fixed and finite set of input views, which limits their ability to acquire question-relevant context at inference time and hinders complex spatial reasoning. We propose Chain-of-View (CoV) prompting, a training-free, test-time reasoning framework that transforms a VLM into an active viewpoint reasoner through a coarse-to-fine exploration process. CoV first employs a View Selection agent to filter redundant frames and identify question-aligned anchor views. It then performs fine-grained view adjustment by interleaving iterative reasoning with discrete camera actions, obtaining new observations from the underlying 3D scene representation until sufficient context is gathered or a step budget is reached.
We evaluate CoV on OpenEQA across four mainstream VLMs and obtain an average +11.56\% improvement in LLM-Match, with a maximum gain of +13.62\% on Qwen3-VL-Flash. CoV further exhibits test-time scaling: increasing the minimum action budget yields an additional +2.51\% average improvement, peaking at +3.73\% on Gemini-2.5-Flash. On ScanQA and SQA3D, CoV delivers strong performance (e.g., 116 CIDEr / 31.9 EM@1 on ScanQA and 51.1 EM@1 on SQA3D). Overall, these results suggest that question-aligned view selection coupled with open-view search is an effective, model-agnostic strategy for improving spatial reasoning in 3D EQA without additional training.