ChronosObserver: Укрощение 4D-мира с помощью гиперпространственного диффузионного сэмплирования
ChronosObserver: Taming 4D World with Hyperspace Diffusion Sampling
December 1, 2025
Авторы: Qisen Wang, Yifan Zhao, Peisen Shen, Jialu Li, Jia Li
cs.AI
Аннотация
Хотя преобладающие модели генерации видео с управлением камерой способны создавать кинематографические результаты, их прямое применение для генерации 3D-консистентных и высокодетализированных временно-синхронизированных мульти-вью видео остается сложной задачей, что является ключевой возможностью для освоения 4D-пространств. Некоторые работы прибегают к аугментации данных или оптимизации во время тестирования, однако эти стратегии ограничены слабой обобщающей способностью моделей и проблемами масштабируемости. Для решения этой проблемы мы предлагаем ChronosObserver — бестренировочный метод, включающий Гиперпространство состояний мира для представления пространственно-временных ограничений сцены 4D-мира и Выборку с управлением через гиперпространство для синхронизации траекторий сэмплинга диффузии множественных вью с использованием гиперпространства. Результаты экспериментов демонстрируют, что наш метод позволяет достичь генерации высокодетализированных и 3D-консистентных временно-синхронизированных мульти-вью видео без обучения или дообучения моделей диффузии.
English
Although prevailing camera-controlled video generation models can produce cinematic results, lifting them directly to the generation of 3D-consistent and high-fidelity time-synchronized multi-view videos remains challenging, which is a pivotal capability for taming 4D worlds. Some works resort to data augmentation or test-time optimization, but these strategies are constrained by limited model generalization and scalability issues. To this end, we propose ChronosObserver, a training-free method including World State Hyperspace to represent the spatiotemporal constraints of a 4D world scene, and Hyperspace Guided Sampling to synchronize the diffusion sampling trajectories of multiple views using the hyperspace. Experimental results demonstrate that our method achieves high-fidelity and 3D-consistent time-synchronized multi-view videos generation without training or fine-tuning for diffusion models.