Où regarder : les modèles de fondation peuvent-ils atteindre un point de vue cible par exploration active ?

Résumé

Les êtres humains peuvent reproduire le point de vue spécifié par une image cible grâce à des mouvements actifs de la tête et du corps, mais l'intelligence spatiale dans les modèles de fondation a été largement étudiée comme une compréhension passive d'observations pré-collectées. Nous introduisons la Reproduction de Point de Vue Cible (TVR) — une tâche active dans laquelle un agent ajuste son point de vue dans un environnement 3D jusqu'à ce que son observation corresponde à une image cible donnée — ainsi que TVRBench, un benchmark de simulation en intérieur couvrant l'échelle des scènes et la richesse visuelle des vues cibles. TVR est loin d'être résolue : sur la partition d'évaluation, les modèles open-source et closed-source les plus performants atteignent seulement 7,8 % et 12,0 % de succès. Une analyse fine identifie deux goulots d'étranglement récurrents : les modèles prêts à l'emploi peinent avec l'historique visuel multi-tour, et les performances chutent fortement lorsque la reproduction du point de vue nécessite une translation du corps plutôt qu'une rotation sur place, révélant un écart dans la mise en correspondance des divergences spatiales avec le mouvement incarné. Pour étudier la réduction de cet écart, nous construisons un cadre unifié de post-entraînement pour TVR, comprenant le SFT sur trajectoires expertes, le CoT-SFT supervisé par raisonnement, le GRPO monotour hors ligne et le GRPO multi-tour en ligne à partir de déploiements de simulateurs en direct. Le SFT visuo-moteur apporte le principal gain, portant un modèle open-source de 9B à 50,8 % de succès ; le GRPO multi-tour fournit un raffinement ciblé pour les environnements multi-pièces et atteint 51,4 % globalement, tandis que la supervision CoT et le GRPO monotour dégradent les performances en boucle fermée. Ces résultats établissent TVRBench comme un banc d'essai pour mesurer et entraîner des modèles de fondation qui perçoivent et agissent activement dans des environnements 3D. Notre code, nos données et nos modèles sont disponibles sur https://github.com/aim-uofa/TVRBench.

English

Humans can reproduce the viewpoint specified by a target image through active head and body motion, yet spatial intelligence in foundation models has largely been studied as passive understanding of pre-collected observations. We introduce Target Viewpoint Reproduction (TVR) -- an active task where an agent adjusts its viewpoint in a 3D environment until its observation matches a given target image -- and TVRBench, an indoor-simulation benchmark spanning scene scale and target-view visual richness. TVR is far from solved: on the evaluation split, the strongest open-source and closed-source models reach only 7.8% and 12.0% success. Fine-grained analysis identifies two consistent bottlenecks: off-the-shelf models struggle with multi-turn visual history, and performance drops sharply when viewpoint reproduction requires body translation rather than in-place rotation, exposing a gap in mapping spatial discrepancies to embodied movement. To study reducing this gap, we build a unified TVR post-training framework covering expert-trajectory SFT, rationale-supervised CoT-SFT, offline Single-turn GRPO, and on-policy Multi-turn GRPO from live simulator rollouts. Visual-action SFT supplies the main gain, raising a 9B open-source model to 50.8% success; Multi-turn GRPO provides targeted multi-room refinement and reaches 51.4% overall, while CoT supervision and Single-turn GRPO degrade closed-loop performance. These results establish TVRBench as a testbed for measuring and training foundation models that actively perceive and act in 3D environments. Our code, data, and models are available at https://github.com/aim-uofa/TVRBench.