Куда смотреть: могут ли фундаментальные модели достичь целевой точки обзора через активное исследование?

Аннотация

Люди могут воспроизводить точку обзора, заданную целевым изображением, с помощью активных движений головы и тела, однако пространственный интеллект фундаментальных моделей в основном изучался как пассивное понимание предварительно собранных наблюдений. Мы представляем задачу Target Viewpoint Reproduction (TVR) — активную задачу, в которой агент изменяет свою точку обзора в трехмерной среде до тех пор, пока его наблюдение не совпадет с заданным целевым изображением, — и бенчмарк TVRBench, симуляционный бенчмарк для помещений, охватывающий масштабы сцены и визуальную насыщенность целевого вида. TVR далека от решения: на оценочном разделе сильнейшие модели с открытым и закрытым исходным кодом достигают лишь 7,8% и 12,0% успеха. Детальный анализ выявляет два устойчивых узких места: готовые модели испытывают трудности с многовитковой визуальной историей, и производительность резко падает, когда воспроизведение точки обзора требует перемещения корпуса, а не поворота на месте, что обнажает разрыв в отображении пространственных несоответствий на воплощенное движение. Для изучения возможности уменьшения этого разрыва мы создаем унифицированный фреймворк последующего обучения TVR, охватывающий SFT на экспертных траекториях, SFT с цепочкой рассуждений, контролируемой обоснованиями (CoT-SFT), офлайн GRPO с одним шагом (Single-turn GRPO) и он-полиси GRPO с несколькими шагами (Multi-turn GRPO) на основе прогонов в симуляторе в реальном времени. Визуально-действенное SFT обеспечивает основной прирост, повышая успех открытой 9B-модели до 50,8%; Multi-turn GRPO обеспечивает целенаправленное уточнение для нескольких комнат и достигает 51,4% в целом, в то время как CoT-супервизия и Single-turn GRPO ухудшают производительность в замкнутом цикле. Эти результаты утверждают TVRBench как испытательный стенд для измерения и обучения фундаментальных моделей, которые активно воспринимают и действуют в трехмерных средах. Наш код, данные и модели доступны по адресу https://github.com/aim-uofa/TVRBench.

English

Humans can reproduce the viewpoint specified by a target image through active head and body motion, yet spatial intelligence in foundation models has largely been studied as passive understanding of pre-collected observations. We introduce Target Viewpoint Reproduction (TVR) -- an active task where an agent adjusts its viewpoint in a 3D environment until its observation matches a given target image -- and TVRBench, an indoor-simulation benchmark spanning scene scale and target-view visual richness. TVR is far from solved: on the evaluation split, the strongest open-source and closed-source models reach only 7.8% and 12.0% success. Fine-grained analysis identifies two consistent bottlenecks: off-the-shelf models struggle with multi-turn visual history, and performance drops sharply when viewpoint reproduction requires body translation rather than in-place rotation, exposing a gap in mapping spatial discrepancies to embodied movement. To study reducing this gap, we build a unified TVR post-training framework covering expert-trajectory SFT, rationale-supervised CoT-SFT, offline Single-turn GRPO, and on-policy Multi-turn GRPO from live simulator rollouts. Visual-action SFT supplies the main gain, raising a 9B open-source model to 50.8% success; Multi-turn GRPO provides targeted multi-room refinement and reaches 51.4% overall, while CoT supervision and Single-turn GRPO degrade closed-loop performance. These results establish TVRBench as a testbed for measuring and training foundation models that actively perceive and act in 3D environments. Our code, data, and models are available at https://github.com/aim-uofa/TVRBench.