AdaViewPlanner: Adattamento di Modelli di Diffusione Video per la Pianificazione del Punto di Vista in Scene 4D
AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes
October 12, 2025
Autori: Yu Li, Menghan Xia, Gongye Liu, Jianhong Bai, Xintao Wang, Conglang Zhang, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Yujiu Yang
cs.AI
Abstract
I recenti modelli Text-to-Video (T2V) hanno dimostrato una potente capacità nella simulazione visiva della geometria e delle leggi fisiche del mondo reale, indicando il loro potenziale come modelli impliciti del mondo. Ispirati da ciò, esploriamo la fattibilità di sfruttare il precedente della generazione video per la pianificazione del punto di vista a partire da scene 4D fornite, poiché i video internamente accompagnano scene dinamiche con punti di vista naturali. A tal fine, proponiamo un paradigma in due fasi per adattare i modelli T2V pre-addestrati alla previsione del punto di vista, in modo compatibile. In primo luogo, iniettiamo la rappresentazione della scena 4D nel modello T2V pre-addestrato tramite un ramo di apprendimento adattivo, dove la scena 4D è indipendente dal punto di vista e il video generato condizionatamente incorpora visivamente i punti di vista. Successivamente, formuliamo l'estrazione del punto di vista come un processo di denoising estrinseco della camera guidato da condizioni ibride. Nello specifico, un ramo di diffusione estrinseca della camera viene ulteriormente introdotto sul modello T2V pre-addestrato, prendendo come input il video generato e la scena 4D. I risultati sperimentali mostrano la superiorità del nostro metodo proposto rispetto ai concorrenti esistenti, e gli studi di ablazione convalidano l'efficacia dei nostri principali disegni tecnici. In una certa misura, questo lavoro dimostra il potenziale dei modelli di generazione video verso l'interazione 4D nel mondo reale.
English
Recent Text-to-Video (T2V) models have demonstrated powerful capability in
visual simulation of real-world geometry and physical laws, indicating its
potential as implicit world models. Inspired by this, we explore the
feasibility of leveraging the video generation prior for viewpoint planning
from given 4D scenes, since videos internally accompany dynamic scenes with
natural viewpoints. To this end, we propose a two-stage paradigm to adapt
pre-trained T2V models for viewpoint prediction, in a compatible manner. First,
we inject the 4D scene representation into the pre-trained T2V model via an
adaptive learning branch, where the 4D scene is viewpoint-agnostic and the
conditional generated video embeds the viewpoints visually. Then, we formulate
viewpoint extraction as a hybrid-condition guided camera extrinsic denoising
process. Specifically, a camera extrinsic diffusion branch is further
introduced onto the pre-trained T2V model, by taking the generated video and 4D
scene as input. Experimental results show the superiority of our proposed
method over existing competitors, and ablation studies validate the
effectiveness of our key technical designs. To some extent, this work proves
the potential of video generation models toward 4D interaction in real world.