ChatPaper.aiChatPaper

ChronosObserver: Het Temmen van de 4D Wereld met Hyperspace Diffusie Sampling

ChronosObserver: Taming 4D World with Hyperspace Diffusion Sampling

December 1, 2025
Auteurs: Qisen Wang, Yifan Zhao, Peisen Shen, Jialu Li, Jia Li
cs.AI

Samenvatting

Hoewel heersende cameragestuurde videogeneratiemodellen cinematografische resultaten kunnen produceren, is het direct opschalen naar de generatie van 3D-consistente en hoogwaardige, tijdsgesynchroniseerde multi-view video's een uitdaging. Dit vermogen is echter cruciaal voor het temmen van 4D-werelden. Sommige werken nemen hun toevlucht tot data-augmentatie of optimalisatie tijdens het testen, maar deze strategieën worden beperkt door een beperkte modelgeneralizatie en schaalbaarheidsproblemen. Daarom stellen wij ChronosObserver voor, een trainingsvrije methode die een Wereldtoestand-Hyperruimte omvat om de ruimtelijk-temporele beperkingen van een 4D-wereldscène weer te geven, en Hyperruimte-gestuurde Steekproefname om de diffusie-steekproeftrajecten van meerdere viewpoints te synchroniseren met behulp van de hyperruimte. Experimentele resultaten tonen aan dat onze methode hoogwaardige en 3D-consistente, tijdsgesynchroniseerde multi-view video's genereert zonder training of fine-tuning van diffusiemodellen.
English
Although prevailing camera-controlled video generation models can produce cinematic results, lifting them directly to the generation of 3D-consistent and high-fidelity time-synchronized multi-view videos remains challenging, which is a pivotal capability for taming 4D worlds. Some works resort to data augmentation or test-time optimization, but these strategies are constrained by limited model generalization and scalability issues. To this end, we propose ChronosObserver, a training-free method including World State Hyperspace to represent the spatiotemporal constraints of a 4D world scene, and Hyperspace Guided Sampling to synchronize the diffusion sampling trajectories of multiple views using the hyperspace. Experimental results demonstrate that our method achieves high-fidelity and 3D-consistent time-synchronized multi-view videos generation without training or fine-tuning for diffusion models.
PDF22December 3, 2025