CoV: Prompting de Cadena de Visión para el Razonamiento Espacial
CoV: Chain-of-View Prompting for Spatial Reasoning
January 8, 2026
Autores: Haoyu Zhao, Akide Liu, Zeyu Zhang, Weijie Wang, Feng Chen, Ruihan Zhu, Gholamreza Haffari, Bohan Zhuang
cs.AI
Resumen
La respuesta a preguntas en entornos 3D (EQA) a menudo requiere recopilar contexto distribuido en múltiples puntos de vista y parcialmente ocluido. Sin embargo, la mayoría de los modelos visión-lenguaje (VLM) recientes están limitados a un conjunto fijo y finito de vistas de entrada, lo que restringe su capacidad para adquirir contexto relevante para la pregunta en el momento de la inferencia y dificulta el razonamiento espacial complejo. Proponemos el prompting de Cadena-de-Vista (CoV), un marco de razonamiento en tiempo de prueba que no requiere entrenamiento y que transforma un VLM en un razonador activo de puntos de vista mediante un proceso de exploración de grueso a fino. CoV emplea primero un agente de Selección de Vista para filtrar fotogramas redundantes e identificar vistas ancla alineadas con la pregunta. Luego realiza un ajuste de vista de grano fino intercalando razonamiento iterativo con acciones discretas de cámara, obteniendo nuevas observaciones de la representación subyacente de la escena 3D hasta que se reúne suficiente contexto o se alcanza un límite de pasos.
Evaluamos CoV en OpenEQA utilizando cuatro VLMs principales y obtenemos una mejora promedio de +11.56% en LLM-Match, con una ganancia máxima de +13.62% en Qwen3-VL-Flash. CoV exhibe además escalado en tiempo de prueba: aumentar el presupuesto mínimo de acción produce una mejora promedio adicional de +2.51%, alcanzando un pico de +3.73% en Gemini-2.5-Flash. En ScanQA y SQA3D, CoV ofrece un rendimiento sólido (por ejemplo, 116 CIDEr / 31.9 EM@1 en ScanQA y 51.1 EM@1 en SQA3D). En general, estos resultados sugieren que la selección de vistas alineada con la pregunta, combinada con una búsqueda de vistas abiertas, es una estrategia efectiva y agnóstica al modelo para mejorar el razonamiento espacial en EQA 3D sin necesidad de entrenamiento adicional.
English
Embodied question answering (EQA) in 3D environments often requires collecting context that is distributed across multiple viewpoints and partially occluded. However, most recent vision--language models (VLMs) are constrained to a fixed and finite set of input views, which limits their ability to acquire question-relevant context at inference time and hinders complex spatial reasoning. We propose Chain-of-View (CoV) prompting, a training-free, test-time reasoning framework that transforms a VLM into an active viewpoint reasoner through a coarse-to-fine exploration process. CoV first employs a View Selection agent to filter redundant frames and identify question-aligned anchor views. It then performs fine-grained view adjustment by interleaving iterative reasoning with discrete camera actions, obtaining new observations from the underlying 3D scene representation until sufficient context is gathered or a step budget is reached.
We evaluate CoV on OpenEQA across four mainstream VLMs and obtain an average +11.56\% improvement in LLM-Match, with a maximum gain of +13.62\% on Qwen3-VL-Flash. CoV further exhibits test-time scaling: increasing the minimum action budget yields an additional +2.51\% average improvement, peaking at +3.73\% on Gemini-2.5-Flash. On ScanQA and SQA3D, CoV delivers strong performance (e.g., 116 CIDEr / 31.9 EM@1 on ScanQA and 51.1 EM@1 on SQA3D). Overall, these results suggest that question-aligned view selection coupled with open-view search is an effective, model-agnostic strategy for improving spatial reasoning in 3D EQA without additional training.