AdaViewPlanner : Adaptation des modèles de diffusion vidéo pour la planification de points de vue dans des scènes 4D
AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes
October 12, 2025
papers.authors: Yu Li, Menghan Xia, Gongye Liu, Jianhong Bai, Xintao Wang, Conglang Zhang, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Yujiu Yang
cs.AI
papers.abstract
Les modèles récents de génération de vidéo à partir de texte (Text-to-Video, T2V) ont démontré une capacité impressionnante à simuler visuellement la géométrie et les lois physiques du monde réel, suggérant leur potentiel en tant que modèles implicites du monde. Inspirés par cela, nous explorons la faisabilité d'exploiter l'a priori de génération de vidéo pour la planification de points de vue à partir de scènes 4D données, puisque les vidéos intègrent naturellement des scènes dynamiques avec des perspectives cohérentes. À cette fin, nous proposons un paradigme en deux étapes pour adapter les modèles T2V pré-entraînés à la prédiction de points de vue, de manière compatible. Premièrement, nous injectons la représentation de la scène 4D dans le modèle T2V pré-entraîné via une branche d'apprentissage adaptative, où la scène 4D est indépendante du point de vue et la vidéo générée conditionnellement intègre visuellement les perspectives. Ensuite, nous formulons l'extraction du point de vue comme un processus de débruitage des paramètres extrinsèques de la caméra guidé par des conditions hybrides. Plus précisément, une branche de diffusion des paramètres extrinsèques de la caméra est ajoutée au modèle T2V pré-entraîné, en prenant comme entrée la vidéo générée et la scène 4D. Les résultats expérimentaux montrent la supériorité de notre méthode par rapport aux approches existantes, et les études d'ablation valident l'efficacité de nos choix techniques clés. Dans une certaine mesure, ce travail prouve le potentiel des modèles de génération de vidéo pour l'interaction 4D dans le monde réel.
English
Recent Text-to-Video (T2V) models have demonstrated powerful capability in
visual simulation of real-world geometry and physical laws, indicating its
potential as implicit world models. Inspired by this, we explore the
feasibility of leveraging the video generation prior for viewpoint planning
from given 4D scenes, since videos internally accompany dynamic scenes with
natural viewpoints. To this end, we propose a two-stage paradigm to adapt
pre-trained T2V models for viewpoint prediction, in a compatible manner. First,
we inject the 4D scene representation into the pre-trained T2V model via an
adaptive learning branch, where the 4D scene is viewpoint-agnostic and the
conditional generated video embeds the viewpoints visually. Then, we formulate
viewpoint extraction as a hybrid-condition guided camera extrinsic denoising
process. Specifically, a camera extrinsic diffusion branch is further
introduced onto the pre-trained T2V model, by taking the generated video and 4D
scene as input. Experimental results show the superiority of our proposed
method over existing competitors, and ablation studies validate the
effectiveness of our key technical designs. To some extent, this work proves
the potential of video generation models toward 4D interaction in real world.