AdaViewPlanner: Aanpassing van Video-diffusiemodellen voor Viewpoint Planning in 4D-scènes
AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes
October 12, 2025
Auteurs: Yu Li, Menghan Xia, Gongye Liu, Jianhong Bai, Xintao Wang, Conglang Zhang, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Yujiu Yang
cs.AI
Samenvatting
Recente Text-to-Video (T2V) modellen hebben een krachtig vermogen getoond in de visuele simulatie van real-world geometrie en natuurkundige wetten, wat hun potentieel als impliciete wereldmodellen aangeeft. Geïnspireerd door dit onderzoek, verkennen we de haalbaarheid van het benutten van de video-generatieprior voor viewpoint planning vanuit gegeven 4D-scènes, aangezien video’s intern dynamische scènes vergezellen met natuurlijke viewpoints. Hiertoe stellen we een tweestaps paradigma voor om vooraf getrainde T2V-modellen aan te passen voor viewpoint-voorspelling, op een compatibele manier. Eerst injecteren we de 4D-scène-representatie in het vooraf getrainde T2V-model via een adaptieve leerbranch, waarbij de 4D-scène viewpoint-agnostisch is en de conditioneel gegenereerde video de viewpoints visueel inbedt. Vervolgens formuleren we viewpoint-extractie als een hybride-conditie-gestuurd camera-extrinsic denoising-proces. Specifiek wordt een camera-extrinsic diffusiebranch verder geïntroduceerd op het vooraf getrainde T2V-model, waarbij de gegenereerde video en de 4D-scène als invoer worden genomen. Experimentele resultaten tonen de superioriteit van onze voorgestelde methode ten opzichte van bestaande concurrenten, en ablatiestudies valideren de effectiviteit van onze belangrijkste technische ontwerpen. Tot op zekere hoogte bewijst dit werk het potentieel van video-generatiemodellen voor 4D-interactie in de echte wereld.
English
Recent Text-to-Video (T2V) models have demonstrated powerful capability in
visual simulation of real-world geometry and physical laws, indicating its
potential as implicit world models. Inspired by this, we explore the
feasibility of leveraging the video generation prior for viewpoint planning
from given 4D scenes, since videos internally accompany dynamic scenes with
natural viewpoints. To this end, we propose a two-stage paradigm to adapt
pre-trained T2V models for viewpoint prediction, in a compatible manner. First,
we inject the 4D scene representation into the pre-trained T2V model via an
adaptive learning branch, where the 4D scene is viewpoint-agnostic and the
conditional generated video embeds the viewpoints visually. Then, we formulate
viewpoint extraction as a hybrid-condition guided camera extrinsic denoising
process. Specifically, a camera extrinsic diffusion branch is further
introduced onto the pre-trained T2V model, by taking the generated video and 4D
scene as input. Experimental results show the superiority of our proposed
method over existing competitors, and ablation studies validate the
effectiveness of our key technical designs. To some extent, this work proves
the potential of video generation models toward 4D interaction in real world.