ChatPaper.aiChatPaper

ChronosObserver: Bändigung der 4D-Welt durch Hyperspace-Diffusions-Sampling

ChronosObserver: Taming 4D World with Hyperspace Diffusion Sampling

December 1, 2025
papers.authors: Qisen Wang, Yifan Zhao, Peisen Shen, Jialu Li, Jia Li
cs.AI

papers.abstract

Obwohl vorherrschende kameragesteuerte Videogenerierungsmodelle cineastische Ergebnisse erzeugen können, bleibt die direkte Übertragung auf die Generierung von 3D-konsistenten und hochwertigen zeitlich synchronisierten Multi-View-Videos eine Herausforderung, was eine entscheidende Fähigkeit zur Beherrschung von 4D-Welten darstellt. Einige Arbeiten greifen auf Datenaugmentierung oder Testzeit-Optimierung zurück, doch diese Strategien sind durch begrenzte Modellgeneralisierung und Skalierbarkeitsprobleme eingeschränkt. Zu diesem Zweck schlagen wir ChronosObserver vor, eine trainierungsfreie Methode, die einen Weltzustands-Hyperraum zur Darstellung der raumzeitlichen Beschränkungen einer 4D-Weltszene sowie eine hyperraumgeführte Abtastung zur Synchronisierung der Diffusions-Abtastpfade mehrerer Ansichten unter Verwendung des Hyperraums umfasst. Experimentelle Ergebnisse demonstrieren, dass unsere Methode die Generierung von hochwertigen und 3D-konsistenten zeitlich synchronisierten Multi-View-Videos ohne Training oder Feinabstimmung von Diffusionsmodellen erreicht.
English
Although prevailing camera-controlled video generation models can produce cinematic results, lifting them directly to the generation of 3D-consistent and high-fidelity time-synchronized multi-view videos remains challenging, which is a pivotal capability for taming 4D worlds. Some works resort to data augmentation or test-time optimization, but these strategies are constrained by limited model generalization and scalability issues. To this end, we propose ChronosObserver, a training-free method including World State Hyperspace to represent the spatiotemporal constraints of a 4D world scene, and Hyperspace Guided Sampling to synchronize the diffusion sampling trajectories of multiple views using the hyperspace. Experimental results demonstrate that our method achieves high-fidelity and 3D-consistent time-synchronized multi-view videos generation without training or fine-tuning for diffusion models.
PDF22December 3, 2025