CoV: Chain-of-View Prompting voor Ruimtelijk Redeneren

Samenvatting

Belichaamde vraagbeantwoording (EQA) in 3D-omgevingen vereist vaak het verzamelen van context die verspreid is over meerdere gezichtspunten en gedeeltelijk verborgen is. De meeste recente visie-taalmodellen (VLM's) zijn echter beperkt tot een vaste en eindige reeks invoerweergaven, wat hun vermogen beperkt om vraagrelevante context tijdens inferentie te verkrijgen en complex ruimtelijk redeneren belemmert. Wij stellen Chain-of-View (CoV) prompting voor, een trainingsvrij, testtijd-redeneerkader dat een VLM transformeert in een actieve gezichtspuntredeneerder via een grof-naar-fijn verkenningproces. CoV gebruikt eerst een View Selection-agent om redundante frames te filteren en vraaguitgelijnde ankerweergaven te identificeren. Vervolgens voert het een fijnmazige view-adjustering uit door iteratief redeneren af te wisselen met discrete camera-acties, waarbij nieuwe observaties worden verkregen uit de onderliggende 3D-scèneweergave totdat voldoende context is verzameld of een stapbudget is bereikt. We evalueren CoV op OpenEQA over vier mainstream VLM's en behalen een gemiddelde verbetering van +11,56% in LLM-Match, met een maximale winst van +13,62% op Qwen3-VL-Flash. CoV vertoont verder schaling tijdens testtijd: het verhogen van het minimale actiebudget levert een extra gemiddelde verbetering van +2,51% op, met een piek van +3,73% op Gemini-2.5-Flash. Op ScanQA en SQA3D levert CoV sterke prestaties (bijv. 116 CIDEr / 31,9 EM@1 op ScanQA en 51,1 EM@1 op SQA3D). Over het algemeen suggereren deze resultaten dat vraaguitgelijnde view-selectie gecombineerd met open-view zoeken een effectieve, model-agnostische strategie is voor het verbeteren van ruimtelijk redeneren in 3D EQA zonder aanvullende training.

English

Embodied question answering (EQA) in 3D environments often requires collecting context that is distributed across multiple viewpoints and partially occluded. However, most recent vision--language models (VLMs) are constrained to a fixed and finite set of input views, which limits their ability to acquire question-relevant context at inference time and hinders complex spatial reasoning. We propose Chain-of-View (CoV) prompting, a training-free, test-time reasoning framework that transforms a VLM into an active viewpoint reasoner through a coarse-to-fine exploration process. CoV first employs a View Selection agent to filter redundant frames and identify question-aligned anchor views. It then performs fine-grained view adjustment by interleaving iterative reasoning with discrete camera actions, obtaining new observations from the underlying 3D scene representation until sufficient context is gathered or a step budget is reached. We evaluate CoV on OpenEQA across four mainstream VLMs and obtain an average +11.56\% improvement in LLM-Match, with a maximum gain of +13.62\% on Qwen3-VL-Flash. CoV further exhibits test-time scaling: increasing the minimum action budget yields an additional +2.51\% average improvement, peaking at +3.73\% on Gemini-2.5-Flash. On ScanQA and SQA3D, CoV delivers strong performance (e.g., 116 CIDEr / 31.9 EM@1 on ScanQA and 51.1 EM@1 on SQA3D). Overall, these results suggest that question-aligned view selection coupled with open-view search is an effective, model-agnostic strategy for improving spatial reasoning in 3D EQA without additional training.

CoV: Chain-of-View Prompting voor Ruimtelijk Redeneren

CoV: Chain-of-View Prompting for Spatial Reasoning

Samenvatting

Support