Waar te kijken: Kunnen fundamentmodellen een doelstandpunt bereiken door actieve verkenning?

Samenvatting

Mensen kunnen het gezichtspunt dat gespecificeerd wordt door een doelbeeld reproduceren via actieve hoofdbeweging en lichaamsbeweging, maar ruimtelijke intelligentie in fundamentmodellen is grotendeels bestudeerd als passief begrip van vooraf verzamelde waarnemingen. Wij introduceren Target Viewpoint Reproduction (TVR) — een actieve taak waarbij een agent zijn gezichtspunt aanpast in een 3D-omgeving totdat zijn waarneming overeenkomt met een gegeven doelbeeld — en TVRBench, een indoor-simulatiebenchmark die zowel de schaal van de scène als de visuele rijkdom van het doelgezichtspunt omvat. TVR is verre van opgelost: op de evaluatiedataset behalen de sterkste open-source- en closed-source-modellen slechts 7,8% en 12,0% succes. Een gedetailleerde analyse identificeert twee consistente knelpunten: kant-en-klare modellen worstelen met multi-turn visuele geschiedenis, en de prestaties dalen scherp wanneer reproductie van het gezichtspunt lichaamstranslatie vereist in plaats van rotatie ter plaatse, wat een kloof blootlegt in het in kaart brengen van ruimtelijke discrepanties naar belichaamde beweging. Om deze kloof te verkleinen, bouwen we een verenigd TVR-natrainkader dat expert-traject SFT, rationale-gesuperviseerde CoT-SFT, offline Single-turn GRPO en on-policy Multi-turn GRPO via live simulator-uitrollen omvat. Visueel-actie SFT levert de grootste winst, waardoor een 9B open-sourcemodel 50,8% succes behaalt; Multi-turn GRPO biedt gerichte multi-kamer verfijning en bereikt 51,4% totaal, terwijl CoT-supervisie en Single-turn GRPO de gesloten-lusprestaties verslechteren. Deze resultaten vestigen TVRBench als een testbed voor het meten en trainen van fundamentmodellen die actief waarnemen en handelen in 3D-omgevingen. Onze code, data en modellen zijn beschikbaar op https://github.com/aim-uofa/TVRBench.

English

Humans can reproduce the viewpoint specified by a target image through active head and body motion, yet spatial intelligence in foundation models has largely been studied as passive understanding of pre-collected observations. We introduce Target Viewpoint Reproduction (TVR) -- an active task where an agent adjusts its viewpoint in a 3D environment until its observation matches a given target image -- and TVRBench, an indoor-simulation benchmark spanning scene scale and target-view visual richness. TVR is far from solved: on the evaluation split, the strongest open-source and closed-source models reach only 7.8% and 12.0% success. Fine-grained analysis identifies two consistent bottlenecks: off-the-shelf models struggle with multi-turn visual history, and performance drops sharply when viewpoint reproduction requires body translation rather than in-place rotation, exposing a gap in mapping spatial discrepancies to embodied movement. To study reducing this gap, we build a unified TVR post-training framework covering expert-trajectory SFT, rationale-supervised CoT-SFT, offline Single-turn GRPO, and on-policy Multi-turn GRPO from live simulator rollouts. Visual-action SFT supplies the main gain, raising a 9B open-source model to 50.8% success; Multi-turn GRPO provides targeted multi-room refinement and reaches 51.4% overall, while CoT supervision and Single-turn GRPO degrade closed-loop performance. These results establish TVRBench as a testbed for measuring and training foundation models that actively perceive and act in 3D environments. Our code, data, and models are available at https://github.com/aim-uofa/TVRBench.