AdaViewPlanner: Aanpassing van Video-diffusiemodellen voor Viewpoint Planning in 4D-scènes

Samenvatting

Recente Text-to-Video (T2V) modellen hebben een krachtig vermogen getoond in de visuele simulatie van real-world geometrie en natuurkundige wetten, wat hun potentieel als impliciete wereldmodellen aangeeft. Geïnspireerd door dit onderzoek, verkennen we de haalbaarheid van het benutten van de video-generatieprior voor viewpoint planning vanuit gegeven 4D-scènes, aangezien video’s intern dynamische scènes vergezellen met natuurlijke viewpoints. Hiertoe stellen we een tweestaps paradigma voor om vooraf getrainde T2V-modellen aan te passen voor viewpoint-voorspelling, op een compatibele manier. Eerst injecteren we de 4D-scène-representatie in het vooraf getrainde T2V-model via een adaptieve leerbranch, waarbij de 4D-scène viewpoint-agnostisch is en de conditioneel gegenereerde video de viewpoints visueel inbedt. Vervolgens formuleren we viewpoint-extractie als een hybride-conditie-gestuurd camera-extrinsic denoising-proces. Specifiek wordt een camera-extrinsic diffusiebranch verder geïntroduceerd op het vooraf getrainde T2V-model, waarbij de gegenereerde video en de 4D-scène als invoer worden genomen. Experimentele resultaten tonen de superioriteit van onze voorgestelde methode ten opzichte van bestaande concurrenten, en ablatiestudies valideren de effectiviteit van onze belangrijkste technische ontwerpen. Tot op zekere hoogte bewijst dit werk het potentieel van video-generatiemodellen voor 4D-interactie in de echte wereld.

English

Recent Text-to-Video (T2V) models have demonstrated powerful capability in visual simulation of real-world geometry and physical laws, indicating its potential as implicit world models. Inspired by this, we explore the feasibility of leveraging the video generation prior for viewpoint planning from given 4D scenes, since videos internally accompany dynamic scenes with natural viewpoints. To this end, we propose a two-stage paradigm to adapt pre-trained T2V models for viewpoint prediction, in a compatible manner. First, we inject the 4D scene representation into the pre-trained T2V model via an adaptive learning branch, where the 4D scene is viewpoint-agnostic and the conditional generated video embeds the viewpoints visually. Then, we formulate viewpoint extraction as a hybrid-condition guided camera extrinsic denoising process. Specifically, a camera extrinsic diffusion branch is further introduced onto the pre-trained T2V model, by taking the generated video and 4D scene as input. Experimental results show the superiority of our proposed method over existing competitors, and ablation studies validate the effectiveness of our key technical designs. To some extent, this work proves the potential of video generation models toward 4D interaction in real world.

AdaViewPlanner: Aanpassing van Video-diffusiemodellen voor Viewpoint Planning in 4D-scènes

AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes

Samenvatting

Support