ChatPaper.aiChatPaper

ChronosObserver: Domando el Mundo 4D con Muestreo de Difusión en Hiperespacio

ChronosObserver: Taming 4D World with Hyperspace Diffusion Sampling

December 1, 2025
Autores: Qisen Wang, Yifan Zhao, Peisen Shen, Jialu Li, Jia Li
cs.AI

Resumen

Aunque los modelos predominantes de generación de vídeo controlado por cámara pueden producir resultados cinematográficos, elevarlos directamente a la generación de vídeos multi-vista sincronizados temporalmente, con alta fidelidad y consistencia 3D, sigue siendo un desafío. Esta capacidad es fundamental para dominar mundos 4D. Algunos trabajos recurren a la aumentación de datos o a la optimización en tiempo de prueba, pero estas estrategias están limitadas por una generalización limitada del modelo y problemas de escalabilidad. Para ello, proponemos ChronosObserver, un método libre de entrenamiento que incluye un Hiperspacio del Estado Mundial para representar las restricciones espacio-temporales de una escena de mundo 4D, y un Muestreo Guiado por Hiperspacio para sincronizar las trayectorias de muestreo de difusión de múltiples vistas utilizando el hiperspacio. Los resultados experimentales demuestran que nuestro método logra la generación de vídeos multi-vista sincronizados temporalmente, con alta fidelidad y consistencia 3D, sin necesidad de entrenar o ajustar los modelos de difusión.
English
Although prevailing camera-controlled video generation models can produce cinematic results, lifting them directly to the generation of 3D-consistent and high-fidelity time-synchronized multi-view videos remains challenging, which is a pivotal capability for taming 4D worlds. Some works resort to data augmentation or test-time optimization, but these strategies are constrained by limited model generalization and scalability issues. To this end, we propose ChronosObserver, a training-free method including World State Hyperspace to represent the spatiotemporal constraints of a 4D world scene, and Hyperspace Guided Sampling to synchronize the diffusion sampling trajectories of multiple views using the hyperspace. Experimental results demonstrate that our method achieves high-fidelity and 3D-consistent time-synchronized multi-view videos generation without training or fine-tuning for diffusion models.
PDF22December 3, 2025