ChronosObserver: Domare il Mondo 4D con il Campionamento a Diffusione nell'Iperspazio
ChronosObserver: Taming 4D World with Hyperspace Diffusion Sampling
December 1, 2025
Autori: Qisen Wang, Yifan Zhao, Peisen Shen, Jialu Li, Jia Li
cs.AI
Abstract
Sebbene i modelli di generazione video controllati da telecamera predominanti possano produrre risultati cinematografici, elevarli direttamente alla generazione di video multi-vista ad alta fedeltà, temporalmente sincronizzati e 3D-consistenti rimane una sfida, capacità fondamentale per dominare mondi 4D. Alcuni lavori ricorrono a data augmentation o ottimizzazione al momento del test, ma queste strategie sono limitate da una generalizzazione del modello insufficiente e da problemi di scalabilità. A tal fine, proponiamo ChronosObserver, un metodo *training-free* che include l'Iperspazio dello Stato Mondiale per rappresentare i vincoli spazio-temporali di una scena di un mondo 4D, e il Campionamento Guidato dall'Iperspazio per sincronizzare le traiettorie di campionamento *diffusion* di viste multiple utilizzando l'iperspazio. I risultati sperimentali dimostrano che il nostro metodo raggiunge la generazione di video multi-vista ad alta fedeltà, 3D-consistenti e temporalmente sincronizzati, senza addestramento o *fine-tuning* per i modelli *diffusion*.
English
Although prevailing camera-controlled video generation models can produce cinematic results, lifting them directly to the generation of 3D-consistent and high-fidelity time-synchronized multi-view videos remains challenging, which is a pivotal capability for taming 4D worlds. Some works resort to data augmentation or test-time optimization, but these strategies are constrained by limited model generalization and scalability issues. To this end, we propose ChronosObserver, a training-free method including World State Hyperspace to represent the spatiotemporal constraints of a 4D world scene, and Hyperspace Guided Sampling to synchronize the diffusion sampling trajectories of multiple views using the hyperspace. Experimental results demonstrate that our method achieves high-fidelity and 3D-consistent time-synchronized multi-view videos generation without training or fine-tuning for diffusion models.