CoV: Prompting de Cadeia de Visualização para Raciocínio Espacial

Resumo

A resposta a perguntas incorporada (EQA) em ambientes 3D frequentemente requer a recolha de contexto que está distribuído por múltiplos pontos de vista e parcialmente ocluído. No entanto, a maioria dos modelos visão-linguagem (VLMs) recentes está limitada a um conjunto fixo e finito de vistas de entrada, o que limita a sua capacidade de adquirir contexto relevante para a pergunta no momento da inferência e dificulta o raciocínio espacial complexo. Propomos o *prompting* Chain-of-View (CoV), uma estrutura de raciocínio sem treino, aplicada no momento do teste, que transforma um VLM num raciocinador ativo de pontos de vista através de um processo de exploração do geral para o específico. O CoV emprega primeiro um agente de Seleção de Vista para filtrar quadros redundantes e identificar vistas âncora alinhadas com a pergunta. Em seguida, realiza um ajuste de vista de granularidade fina, intercalando raciocínio iterativo com ações discretas da câmara, obtendo novas observações da representação da cena 3D subjacente até que contexto suficiente seja reunido ou um orçamento de etapas seja atingido. Avaliamos o CoV no OpenEQA em quatro VLMs principais e obtivemos uma melhoria média de +11,56% no LLM-Match, com um ganho máximo de +13,62% no Qwen3-VL-Flash. O CoV exibe ainda uma escala no tempo de teste: aumentar o orçamento mínimo de ação produz uma melhoria média adicional de +2,51%, atingindo um pico de +3,73% no Gemini-2.5-Flash. No ScanQA e no SQA3D, o CoV apresenta um desempenho sólido (por exemplo, 116 CIDEr / 31,9 EM@1 no ScanQA e 51,1 EM@1 no SQA3D). Globalmente, estes resultados sugerem que a seleção de vistas alinhada com a pergunta, aliada a uma busca de vistas abertas, é uma estratégia eficaz e agnóstica ao modelo para melhorar o raciocínio espacial na EQA 3D sem treino adicional.

English

Embodied question answering (EQA) in 3D environments often requires collecting context that is distributed across multiple viewpoints and partially occluded. However, most recent vision--language models (VLMs) are constrained to a fixed and finite set of input views, which limits their ability to acquire question-relevant context at inference time and hinders complex spatial reasoning. We propose Chain-of-View (CoV) prompting, a training-free, test-time reasoning framework that transforms a VLM into an active viewpoint reasoner through a coarse-to-fine exploration process. CoV first employs a View Selection agent to filter redundant frames and identify question-aligned anchor views. It then performs fine-grained view adjustment by interleaving iterative reasoning with discrete camera actions, obtaining new observations from the underlying 3D scene representation until sufficient context is gathered or a step budget is reached. We evaluate CoV on OpenEQA across four mainstream VLMs and obtain an average +11.56\% improvement in LLM-Match, with a maximum gain of +13.62\% on Qwen3-VL-Flash. CoV further exhibits test-time scaling: increasing the minimum action budget yields an additional +2.51\% average improvement, peaking at +3.73\% on Gemini-2.5-Flash. On ScanQA and SQA3D, CoV delivers strong performance (e.g., 116 CIDEr / 31.9 EM@1 on ScanQA and 51.1 EM@1 on SQA3D). Overall, these results suggest that question-aligned view selection coupled with open-view search is an effective, model-agnostic strategy for improving spatial reasoning in 3D EQA without additional training.

CoV: Prompting de Cadeia de Visualização para Raciocínio Espacial

CoV: Chain-of-View Prompting for Spatial Reasoning

Resumo

Support