BulletTime: Controllo Disaccoppiato del Tempo e della Posa della Fotocamera per la Generazione di Video
BulletTime: Decoupled Control of Time and Camera Pose for Video Generation
December 4, 2025
Autori: Yiming Wang, Qihang Zhang, Shengqu Cai, Tong Wu, Jan Ackermann, Zhengfei Kuang, Yang Zheng, Frano Rajič, Siyu Tang, Gordon Wetzstein
cs.AI
Abstract
I modelli emergenti di diffusione video raggiungono un'elevata fedeltà visiva, ma accoppiano fondamentalmente le dinamiche della scena con il movimento della telecamera, limitando la loro capacità di fornire un controllo spaziale e temporale preciso. Introduciamo un framework di diffusione video controllabile in 4D che dissocia esplicitamente le dinamiche della scena dalla posa della telecamera, consentendo una manipolazione fine-grana sia delle dinamiche della scena che del punto di vista della telecamera. Il nostro framework utilizza sequenze continue mondo-tempo e traiettorie della telecamera come input di condizionamento, iniettandoli nel modello di diffusione video attraverso un encoding posizionale 4D nello strato di attenzione e normalizzazioni adattive per la modulazione delle feature. Per addestrare questo modello, abbiamo curato un dataset unico in cui le variazioni temporali e della telecamera sono parametrizzate indipendentemente; questo dataset sarà reso pubblico. Gli esperimenti dimostrano che il nostro modello raggiunge un robusto controllo 4D nel mondo reale attraverso diversi pattern temporali e traiettorie di telecamera, preservando al contempo un'alta qualità di generazione e superando i lavori precedenti in termini di controllabilità. Per i risultati video, consultate il nostro sito web: https://19reborn.github.io/Bullet4D/
English
Emerging video diffusion models achieve high visual fidelity but fundamentally couple scene dynamics with camera motion, limiting their ability to provide precise spatial and temporal control. We introduce a 4D-controllable video diffusion framework that explicitly decouples scene dynamics from camera pose, enabling fine-grained manipulation of both scene dynamics and camera viewpoint. Our framework takes continuous world-time sequences and camera trajectories as conditioning inputs, injecting them into the video diffusion model through a 4D positional encoding in the attention layer and adaptive normalizations for feature modulation. To train this model, we curate a unique dataset in which temporal and camera variations are independently parameterized; this dataset will be made public. Experiments show that our model achieves robust real-world 4D control across diverse timing patterns and camera trajectories, while preserving high generation quality and outperforming prior work in controllability. See our website for video results: https://19reborn.github.io/Bullet4D/