ChronosObserver: Domando o Mundo 4D com Amostragem por Difusão no Hiperespaço
ChronosObserver: Taming 4D World with Hyperspace Diffusion Sampling
December 1, 2025
Autores: Qisen Wang, Yifan Zhao, Peisen Shen, Jialu Li, Jia Li
cs.AI
Resumo
Embora os modelos predominantes de geração de vídeo controlados por câmera possam produzir resultados cinematográficos, elevá-los diretamente para a geração de vídeos multi-visão sincronizados temporalmente, com alta fidelidade e consistência 3D, permanece um desafio, sendo esta uma capacidade crucial para domar mundos 4D. Alguns trabalhos recorrem à aumento de dados ou otimização em tempo de teste, mas estas estratégias são limitadas pela generalização limitada do modelo e problemas de escalabilidade. Para tal, propomos o ChronosObserver, um método livre de treinamento que inclui o Hiperspaço de Estado do Mundo para representar as restrições espaço-temporais de uma cena de mundo 4D, e a Amostragem Guiada por Hiperspaço para sincronizar as trajetórias de amostragem de difusão de múltiplas visões usando o hiperspaço. Resultados experimentais demonstram que o nosso método alcança a geração de vídeos multi-visão sincronizados temporalmente, com alta fidelidade e consistência 3D, sem treinamento ou ajuste fino para modelos de difusão.
English
Although prevailing camera-controlled video generation models can produce cinematic results, lifting them directly to the generation of 3D-consistent and high-fidelity time-synchronized multi-view videos remains challenging, which is a pivotal capability for taming 4D worlds. Some works resort to data augmentation or test-time optimization, but these strategies are constrained by limited model generalization and scalability issues. To this end, we propose ChronosObserver, a training-free method including World State Hyperspace to represent the spatiotemporal constraints of a 4D world scene, and Hyperspace Guided Sampling to synchronize the diffusion sampling trajectories of multiple views using the hyperspace. Experimental results demonstrate that our method achieves high-fidelity and 3D-consistent time-synchronized multi-view videos generation without training or fine-tuning for diffusion models.