AdaViewPlanner: Adaptando Modelos de Difusão de Vídeo para Planejamento de Perspectiva em Cenas 4D
AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes
October 12, 2025
Autores: Yu Li, Menghan Xia, Gongye Liu, Jianhong Bai, Xintao Wang, Conglang Zhang, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Yujiu Yang
cs.AI
Resumo
Modelos recentes de Texto para Vídeo (T2V) demonstraram uma capacidade poderosa na simulação visual da geometria e das leis físicas do mundo real, indicando seu potencial como modelos implícitos do mundo. Inspirados por isso, exploramos a viabilidade de aproveitar o conhecimento prévio de geração de vídeo para o planejamento de pontos de vista a partir de cenas 4D dadas, uma vez que os vídeos internamente acompanham cenas dinâmicas com pontos de vista naturais. Para isso, propomos um paradigma de duas etapas para adaptar modelos T2V pré-treinados para a previsão de pontos de vista, de maneira compatível. Primeiro, injetamos a representação da cena 4D no modelo T2V pré-treinado por meio de um ramo de aprendizado adaptativo, onde a cena 4D é independente do ponto de vista e o vídeo gerado condicionalmente incorpora visualmente os pontos de vista. Em seguida, formulamos a extração de pontos de vista como um processo de remoção de ruído extrínseco da câmera guiado por condições híbridas. Especificamente, um ramo de difusão extrínseca da câmera é introduzido no modelo T2V pré-treinado, tomando como entrada o vídeo gerado e a cena 4D. Os resultados experimentais mostram a superioridade do nosso método proposto em relação aos concorrentes existentes, e estudos de ablação validam a eficácia dos nossos principais projetos técnicos. Até certo ponto, este trabalho comprova o potencial dos modelos de geração de vídeo para a interação 4D no mundo real.
English
Recent Text-to-Video (T2V) models have demonstrated powerful capability in
visual simulation of real-world geometry and physical laws, indicating its
potential as implicit world models. Inspired by this, we explore the
feasibility of leveraging the video generation prior for viewpoint planning
from given 4D scenes, since videos internally accompany dynamic scenes with
natural viewpoints. To this end, we propose a two-stage paradigm to adapt
pre-trained T2V models for viewpoint prediction, in a compatible manner. First,
we inject the 4D scene representation into the pre-trained T2V model via an
adaptive learning branch, where the 4D scene is viewpoint-agnostic and the
conditional generated video embeds the viewpoints visually. Then, we formulate
viewpoint extraction as a hybrid-condition guided camera extrinsic denoising
process. Specifically, a camera extrinsic diffusion branch is further
introduced onto the pre-trained T2V model, by taking the generated video and 4D
scene as input. Experimental results show the superiority of our proposed
method over existing competitors, and ablation studies validate the
effectiveness of our key technical designs. To some extent, this work proves
the potential of video generation models toward 4D interaction in real world.