Wo soll man hinschauen: Können Foundation-Modelle durch aktive Exploration einen Zielstandpunkt erreichen?

Zusammenfassung

Der Mensch kann den in einem Zielbild vorgegebenen Blickwinkel durch aktive Kopf- und Körperbewegungen reproduzieren, während die räumliche Intelligenz von Foundation-Modellen bislang vor allem als passives Verständnis vorab gesammelter Beobachtungen untersucht wurde. Wir führen die Zielblickwinkelreproduktion (Target Viewpoint Reproduction, TVR) ein – eine aktive Aufgabe, bei der ein Agent seinen Blickwinkel in einer 3D-Umgebung so anpasst, bis seine Beobachtung mit einem vorgegebenen Zielbild übereinstimmt – sowie TVRBench, einen Indoor-Simulationsbenchmark, der die Szenengröße und den visuellen Reichtum des Zielblicks umfasst. TVR ist bei Weitem nicht gelöst: Im Evaluierungssplit erreichen die stärksten Open-Source- und Closed-Source-Modelle lediglich 7,8 % bzw. 12,0 % Erfolg. Eine detaillierte Analyse identifiziert zwei durchgängige Engpässe: Standardmodelle tun sich mit mehrschrittiger visueller Historie schwer, und die Leistung fällt stark ab, wenn die Blickwinkelreproduktion eine Körpertranslation anstelle einer Drehung vor Ort erfordert – eine Lücke bei der Abbildung räumlicher Diskrepanzen auf verkörperte Bewegung wird offengelegt. Um diese Lücke zu verkleinern, bauen wir ein einheitliches TVR-Posttraining-Framework auf, das Expertentrajektorien-SFT, rationaleüberwachte CoT-SFT, offline Single-turn-GRPO und On-Policy-Multi-turn-GRPO aus Live-Simulator-Rollouts umfasst. Die visuell-aktionsbasierte SFT liefert den Hauptgewinn und steigert einen 9B-Open-Source-Modell auf 50,8 % Erfolg; Multi-turn-GRPO bietet eine gezielte Multi-Room-Verfeinerung und erreicht insgesamt 51,4 %, während CoT-Überwachung und Single-turn-GRPO die Closed-Loop-Leistung verschlechtern. Diese Ergebnisse etablieren TVRBench als Testumgebung zur Messung und zum Training von Foundation-Modellen, die in 3D-Umgebungen aktiv wahrnehmen und handeln. Unser Code, Daten und Modelle sind verfügbar unter https://github.com/aim-uofa/TVRBench.

English

Humans can reproduce the viewpoint specified by a target image through active head and body motion, yet spatial intelligence in foundation models has largely been studied as passive understanding of pre-collected observations. We introduce Target Viewpoint Reproduction (TVR) -- an active task where an agent adjusts its viewpoint in a 3D environment until its observation matches a given target image -- and TVRBench, an indoor-simulation benchmark spanning scene scale and target-view visual richness. TVR is far from solved: on the evaluation split, the strongest open-source and closed-source models reach only 7.8% and 12.0% success. Fine-grained analysis identifies two consistent bottlenecks: off-the-shelf models struggle with multi-turn visual history, and performance drops sharply when viewpoint reproduction requires body translation rather than in-place rotation, exposing a gap in mapping spatial discrepancies to embodied movement. To study reducing this gap, we build a unified TVR post-training framework covering expert-trajectory SFT, rationale-supervised CoT-SFT, offline Single-turn GRPO, and on-policy Multi-turn GRPO from live simulator rollouts. Visual-action SFT supplies the main gain, raising a 9B open-source model to 50.8% success; Multi-turn GRPO provides targeted multi-room refinement and reaches 51.4% overall, while CoT supervision and Single-turn GRPO degrade closed-loop performance. These results establish TVRBench as a testbed for measuring and training foundation models that actively perceive and act in 3D environments. Our code, data, and models are available at https://github.com/aim-uofa/TVRBench.