AdaViewPlanner: Adaptación de Modelos de Difusión de Video para la Planificación de Puntos de Vista en Escenas 4D
AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes
October 12, 2025
Autores: Yu Li, Menghan Xia, Gongye Liu, Jianhong Bai, Xintao Wang, Conglang Zhang, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Yujiu Yang
cs.AI
Resumen
Los modelos recientes de Texto a Video (T2V) han demostrado una capacidad poderosa en la simulación visual de la geometría y las leyes físicas del mundo real, lo que indica su potencial como modelos implícitos del mundo. Inspirados por esto, exploramos la viabilidad de aprovechar el conocimiento previo de generación de videos para la planificación de puntos de vista a partir de escenas 4D dadas, ya que los videos internamente acompañan escenas dinámicas con puntos de vista naturales. Con este fin, proponemos un paradigma de dos etapas para adaptar modelos T2V preentrenados para la predicción de puntos de vista, de manera compatible. Primero, inyectamos la representación de la escena 4D en el modelo T2V preentrenado mediante una rama de aprendizaje adaptativo, donde la escena 4D es independiente del punto de vista y el video generado condicionalmente incorpora visualmente los puntos de vista. Luego, formulamos la extracción del punto de vista como un proceso de eliminación de ruido en los parámetros extrínsecos de la cámara guiado por condiciones híbridas. Específicamente, se introduce una rama de difusión de parámetros extrínsecos de la cámara en el modelo T2V preentrenado, tomando como entrada el video generado y la escena 4D. Los resultados experimentales muestran la superioridad de nuestro método propuesto sobre los competidores existentes, y los estudios de ablación validan la efectividad de nuestros diseños técnicos clave. En cierta medida, este trabajo demuestra el potencial de los modelos de generación de videos hacia la interacción 4D en el mundo real.
English
Recent Text-to-Video (T2V) models have demonstrated powerful capability in
visual simulation of real-world geometry and physical laws, indicating its
potential as implicit world models. Inspired by this, we explore the
feasibility of leveraging the video generation prior for viewpoint planning
from given 4D scenes, since videos internally accompany dynamic scenes with
natural viewpoints. To this end, we propose a two-stage paradigm to adapt
pre-trained T2V models for viewpoint prediction, in a compatible manner. First,
we inject the 4D scene representation into the pre-trained T2V model via an
adaptive learning branch, where the 4D scene is viewpoint-agnostic and the
conditional generated video embeds the viewpoints visually. Then, we formulate
viewpoint extraction as a hybrid-condition guided camera extrinsic denoising
process. Specifically, a camera extrinsic diffusion branch is further
introduced onto the pre-trained T2V model, by taking the generated video and 4D
scene as input. Experimental results show the superiority of our proposed
method over existing competitors, and ablation studies validate the
effectiveness of our key technical designs. To some extent, this work proves
the potential of video generation models toward 4D interaction in real world.