Onde Olhar: Os Modelos de Fundação Podem Atingir um Ponto de Vista Alvo Através de Exploração Ativa?

Resumo

Os humanos podem reproduzir o ponto de vista especificado por uma imagem alvo através de movimento ativo da cabeça e do corpo; no entanto, a inteligência espacial em modelos fundamentais tem sido amplamente estudada como compreensão passiva de observações pré-coletadas. Apresentamos a Reprodução de Ponto de Vista Alvo (TVR) — uma tarefa ativa onde um agente ajusta seu ponto de vista em um ambiente 3D até que sua observação corresponda a uma imagem alvo dada — e o TVRBench, um benchmark de simulação interna abrangendo escala de cena e riqueza visual da vista alvo. O TVR está longe de ser resolvido: na divisão de avaliação, os modelos mais fortes de código aberto e fechado alcançam apenas 7,8% e 12,0% de sucesso. Uma análise detalhada identifica dois gargalos consistentes: modelos prontos para uso têm dificuldade com histórico visual de múltiplas etapas, e o desempenho cai drasticamente quando a reprodução do ponto de vista requer translação do corpo em vez de rotação no lugar, expondo uma lacuna no mapeamento de discrepâncias espaciais para movimento incorporado. Para estudar a redução dessa lacuna, construímos um framework unificado de pós-treinamento do TVR que abrange SFT de trajetória especialista, CoT-SFT supervisionado por raciocínio, GRPO de turno único offline e GRPO de múltiplos turnos *on-policy* a partir de simulações ao vivo. SFT de ação visual fornece o principal ganho, elevando um modelo de código aberto de 9B para 50,8% de sucesso; GRPO de múltiplos turnos fornece refinamento direcionado para múltiplas salas e atinge 51,4% no geral, enquanto a supervisão CoT e o GRPO de turno único degradam o desempenho em malha fechada. Esses resultados estabelecem o TVRBench como um ambiente de teste para medir e treinar modelos fundamentais que percebem e agem ativamente em ambientes 3D. Nosso código, dados e modelos estão disponíveis em https://github.com/aim-uofa/TVRBench.

English

Humans can reproduce the viewpoint specified by a target image through active head and body motion, yet spatial intelligence in foundation models has largely been studied as passive understanding of pre-collected observations. We introduce Target Viewpoint Reproduction (TVR) -- an active task where an agent adjusts its viewpoint in a 3D environment until its observation matches a given target image -- and TVRBench, an indoor-simulation benchmark spanning scene scale and target-view visual richness. TVR is far from solved: on the evaluation split, the strongest open-source and closed-source models reach only 7.8% and 12.0% success. Fine-grained analysis identifies two consistent bottlenecks: off-the-shelf models struggle with multi-turn visual history, and performance drops sharply when viewpoint reproduction requires body translation rather than in-place rotation, exposing a gap in mapping spatial discrepancies to embodied movement. To study reducing this gap, we build a unified TVR post-training framework covering expert-trajectory SFT, rationale-supervised CoT-SFT, offline Single-turn GRPO, and on-policy Multi-turn GRPO from live simulator rollouts. Visual-action SFT supplies the main gain, raising a 9B open-source model to 50.8% success; Multi-turn GRPO provides targeted multi-room refinement and reaches 51.4% overall, while CoT supervision and Single-turn GRPO degrade closed-loop performance. These results establish TVRBench as a testbed for measuring and training foundation models that actively perceive and act in 3D environments. Our code, data, and models are available at https://github.com/aim-uofa/TVRBench.