ChronosObserver : Dompter le monde 4D par l'échantillonnage de diffusion hyperspatiale
ChronosObserver: Taming 4D World with Hyperspace Diffusion Sampling
December 1, 2025
papers.authors: Qisen Wang, Yifan Zhao, Peisen Shen, Jialu Li, Jia Li
cs.AI
papers.abstract
Bien que les modèles de génération vidéo contrôlée par caméra dominants puissent produire des résultats cinématographiques, leur adaptation directe à la génération de vidéos multi-vues synchronisées dans le temps, fidèles et cohérentes en 3D, reste un défi. Cette capacité est pourtant essentielle pour maîtriser les mondes 4D. Certains travaux ont recours à l'augmentation de données ou à l'optimisation au moment du test, mais ces stratégies sont limitées par une généralisation imparfaite des modèles et des problèmes d'évolutivité. Pour y remédier, nous proposons ChronosObserver, une méthode sans apprentissage comprenant un Hyperespace d'État Mondial pour représenter les contraintes spatiotemporelles d'une scène mondiale 4D, et un Échantillonnage Guidé par l'Hyperespace pour synchroniser les trajectoires d'échantillonnage de diffusion des vues multiples à l'aide de cet hyperespace. Les résultats expérimentaux démontrent que notre méthode permet de générer des vidéos multi-vues synchronisées dans le temps, de haute fidélité et cohérentes en 3D, sans apprentissage ou ajustement fin des modèles de diffusion.
English
Although prevailing camera-controlled video generation models can produce cinematic results, lifting them directly to the generation of 3D-consistent and high-fidelity time-synchronized multi-view videos remains challenging, which is a pivotal capability for taming 4D worlds. Some works resort to data augmentation or test-time optimization, but these strategies are constrained by limited model generalization and scalability issues. To this end, we propose ChronosObserver, a training-free method including World State Hyperspace to represent the spatiotemporal constraints of a 4D world scene, and Hyperspace Guided Sampling to synchronize the diffusion sampling trajectories of multiple views using the hyperspace. Experimental results demonstrate that our method achieves high-fidelity and 3D-consistent time-synchronized multi-view videos generation without training or fine-tuning for diffusion models.