ChatPaper.aiChatPaper

BulletTime: Control Desacoplado del Tiempo y la Pose de la Cámara para la Generación de Videos

BulletTime: Decoupled Control of Time and Camera Pose for Video Generation

December 4, 2025
Autores: Yiming Wang, Qihang Zhang, Shengqu Cai, Tong Wu, Jan Ackermann, Zhengfei Kuang, Yang Zheng, Frano Rajič, Siyu Tang, Gordon Wetzstein
cs.AI

Resumen

Los modelos emergentes de difusión de video logran alta fidelidad visual, pero acoplan fundamentalmente la dinámica de la escena con el movimiento de la cámara, limitando su capacidad para proporcionar un control espacial y temporal preciso. Presentamos un marco de difusión de video controlable en 4D que desacopla explícitamente la dinámica de la escena de la pose de la cámara, permitiendo la manipulación de grano fino tanto de la dinámica escénica como del punto de vista de la cámara. Nuestro marco toma secuencias continuas de tiempo-mundo y trayectorias de cámara como entradas de condicionamiento, inyectándolas en el modelo de difusión de video mediante una codificación posicional 4D en la capa de atención y normalizaciones adaptativas para la modulación de características. Para entrenar este modelo, hemos creado un conjunto de datos único donde las variaciones temporales y de cámara están parametrizadas independientemente; este conjunto de datos se hará público. Los experimentos demuestran que nuestro modelo logra un control 4D robusto en el mundo real a través de diversos patrones temporales y trayectorias de cámara, preservando una alta calidad de generación y superando trabajos previos en controllabilidad. Vea los resultados en video en nuestro sitio web: https://19reborn.github.io/Bullet4D/
English
Emerging video diffusion models achieve high visual fidelity but fundamentally couple scene dynamics with camera motion, limiting their ability to provide precise spatial and temporal control. We introduce a 4D-controllable video diffusion framework that explicitly decouples scene dynamics from camera pose, enabling fine-grained manipulation of both scene dynamics and camera viewpoint. Our framework takes continuous world-time sequences and camera trajectories as conditioning inputs, injecting them into the video diffusion model through a 4D positional encoding in the attention layer and adaptive normalizations for feature modulation. To train this model, we curate a unique dataset in which temporal and camera variations are independently parameterized; this dataset will be made public. Experiments show that our model achieves robust real-world 4D control across diverse timing patterns and camera trajectories, while preserving high generation quality and outperforming prior work in controllability. See our website for video results: https://19reborn.github.io/Bullet4D/
PDF31December 6, 2025