Dónde mirar: ¿Pueden los modelos fundacionales alcanzar un punto de vista objetivo mediante exploración activa?

Resumen

Los humanos pueden reproducir el punto de vista especificado por una imagen objetivo mediante el movimiento activo de la cabeza y el cuerpo, sin embargo, la inteligencia espacial en los modelos fundacionales se ha estudiado mayormente como una comprensión pasiva de observaciones previamente recogidas. Presentamos la Reproducción de Punto de Vista Objetivo (TVR, por sus siglas en inglés) —una tarea activa en la que un agente ajusta su punto de vista en un entorno 3D hasta que su observación coincide con una imagen objetivo dada— y TVRBench, un punto de referencia de simulación en interiores que abarca la escala de la escena y la riqueza visual de la vista objetivo. TVR está lejos de estar resuelto: en la división de evaluación, los modelos de código abierto y cerrado más potentes alcanzan solo un 7,8% y un 12,0% de éxito, respectivamente. Un análisis detallado identifica dos cuellos de botella consistentes: los modelos comerciales tienen dificultades con el historial visual de múltiples turnos, y el rendimiento cae drásticamente cuando la reproducción del punto de vista requiere traslación del cuerpo en lugar de rotación in situ, lo que expone una brecha en el mapeo de discrepancias espaciales a movimiento encarnado. Para estudiar cómo reducir esta brecha, construimos un marco de post-entrenamiento unificado de TVR que abarca SFT con trayectorias de experto, CoT-SFT supervisado por razonamiento, GRPO de un solo turno fuera de línea y GRPO de múltiples turnos sobre la política a partir de ejecuciones en vivo del simulador. El SFT visual-accional proporciona la principal ganancia, elevando un modelo de código abierto de 9B a un 50,8% de éxito; el GRPO de múltiples turnos proporciona un refinamiento específico para múltiples salas y alcanza un 51,4% en general, mientras que la supervisión CoT y el GRPO de un solo turno degradan el rendimiento en bucle cerrado. Estos resultados establecen TVRBench como un banco de pruebas para medir y entrenar modelos fundacionales que perciben y actúan activamente en entornos 3D. Nuestro código, datos y modelos están disponibles en https://github.com/aim-uofa/TVRBench.

English

Humans can reproduce the viewpoint specified by a target image through active head and body motion, yet spatial intelligence in foundation models has largely been studied as passive understanding of pre-collected observations. We introduce Target Viewpoint Reproduction (TVR) -- an active task where an agent adjusts its viewpoint in a 3D environment until its observation matches a given target image -- and TVRBench, an indoor-simulation benchmark spanning scene scale and target-view visual richness. TVR is far from solved: on the evaluation split, the strongest open-source and closed-source models reach only 7.8% and 12.0% success. Fine-grained analysis identifies two consistent bottlenecks: off-the-shelf models struggle with multi-turn visual history, and performance drops sharply when viewpoint reproduction requires body translation rather than in-place rotation, exposing a gap in mapping spatial discrepancies to embodied movement. To study reducing this gap, we build a unified TVR post-training framework covering expert-trajectory SFT, rationale-supervised CoT-SFT, offline Single-turn GRPO, and on-policy Multi-turn GRPO from live simulator rollouts. Visual-action SFT supplies the main gain, raising a 9B open-source model to 50.8% success; Multi-turn GRPO provides targeted multi-room refinement and reaches 51.4% overall, while CoT supervision and Single-turn GRPO degrade closed-loop performance. These results establish TVRBench as a testbed for measuring and training foundation models that actively perceive and act in 3D environments. Our code, data, and models are available at https://github.com/aim-uofa/TVRBench.