AdaViewPlanner: Anpassung von Video-Diffusionsmodellen für die Blickpunktplanung in 4D-Szenen
AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes
October 12, 2025
papers.authors: Yu Li, Menghan Xia, Gongye Liu, Jianhong Bai, Xintao Wang, Conglang Zhang, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Yujiu Yang
cs.AI
papers.abstract
Aktuelle Text-zu-Video (T2V)-Modelle haben eine beeindruckende Fähigkeit zur visuellen Simulation realer Geometrie und physikalischer Gesetze demonstriert, was ihr Potenzial als implizite Weltmodelle verdeutlicht. Inspiriert davon untersuchen wir die Machbarkeit, den Video-Generierungs-Prior für die Blickpunktplanung aus gegebenen 4D-Szenen zu nutzen, da Videos intern dynamische Szenen mit natürlichen Blickpunkten begleiten. Zu diesem Zweck schlagen wir ein zweistufiges Paradigma vor, um vortrainierte T2V-Modelle auf kompatible Weise für die Blickpunktvorhersage anzupassen. Zunächst integrieren wir die 4D-Szenendarstellung über einen adaptiven Lernzweig in das vortrainierte T2V-Modell, wobei die 4D-Szene blickpunktunabhängig ist und das bedingt generierte Video die Blickpunkte visuell einbettet. Anschließend formulieren wir die Blickpunktextraktion als einen hybrid-bedingten Prozess zur Denoisierung der Kameraposition. Konkret wird ein Kamerapositions-Diffusionszweig auf das vortrainierte T2V-Modell aufgesetzt, der das generierte Video und die 4D-Szene als Eingabe verwendet. Experimentelle Ergebnisse zeigen die Überlegenheit unserer Methode gegenüber bestehenden Konkurrenzansätzen, und Ablationsstudien bestätigen die Wirksamkeit unserer Schlüsseltechniken. In gewissem Maße beweist diese Arbeit das Potenzial von Video-Generierungsmodellen für 4D-Interaktionen in der realen Welt.
English
Recent Text-to-Video (T2V) models have demonstrated powerful capability in
visual simulation of real-world geometry and physical laws, indicating its
potential as implicit world models. Inspired by this, we explore the
feasibility of leveraging the video generation prior for viewpoint planning
from given 4D scenes, since videos internally accompany dynamic scenes with
natural viewpoints. To this end, we propose a two-stage paradigm to adapt
pre-trained T2V models for viewpoint prediction, in a compatible manner. First,
we inject the 4D scene representation into the pre-trained T2V model via an
adaptive learning branch, where the 4D scene is viewpoint-agnostic and the
conditional generated video embeds the viewpoints visually. Then, we formulate
viewpoint extraction as a hybrid-condition guided camera extrinsic denoising
process. Specifically, a camera extrinsic diffusion branch is further
introduced onto the pre-trained T2V model, by taking the generated video and 4D
scene as input. Experimental results show the superiority of our proposed
method over existing competitors, and ablation studies validate the
effectiveness of our key technical designs. To some extent, this work proves
the potential of video generation models toward 4D interaction in real world.