ChronosObserver: 하이퍼스페이스 확산 샘플링을 통한 4차원 세계의 제어
ChronosObserver: Taming 4D World with Hyperspace Diffusion Sampling
December 1, 2025
저자: Qisen Wang, Yifan Zhao, Peisen Shen, Jialu Li, Jia Li
cs.AI
초록
기존의 카메라 제어 기반 비디오 생성 모델은 영화적 결과물을 생성할 수 있으나, 이를 3D 일관성과 높은 정밀도를 갖는 시간 동기화 다중 뷰 비디오 생성으로 직접 확장하는 것은 여전히 어려운 과제입니다. 이는 4D 세계를 제어하기 위한 핵심 능력입니다. 일부 연구에서는 데이터 증강이나 테스트 시간 최적화를 활용하지만, 이러한 전략은 제한된 모델 일반화 성능과 확장성 문제로 인해 한계가 있습니다. 이를 위해 우리는 ChronosObserver를 제안합니다. 이는 훈련이 필요 없는 방법으로, 4D 월드 장면의 시공간적 제약 조건을 표현하는 World State Hyperspace와 이 하이퍼스페이스를 활용하여 다중 뷰의 확산 샘플링 궤적을 동기화하는 Hyperspace Guided Sampling을 포함합니다. 실험 결과, 우리의 방법이 확산 모델에 대한 추가 훈련이나 미세 조정 없이도 높은 정밀도와 3D 일관성을 갖는 시간 동기화 다중 뷰 비디오 생성을 달성함을 보여줍니다.
English
Although prevailing camera-controlled video generation models can produce cinematic results, lifting them directly to the generation of 3D-consistent and high-fidelity time-synchronized multi-view videos remains challenging, which is a pivotal capability for taming 4D worlds. Some works resort to data augmentation or test-time optimization, but these strategies are constrained by limited model generalization and scalability issues. To this end, we propose ChronosObserver, a training-free method including World State Hyperspace to represent the spatiotemporal constraints of a 4D world scene, and Hyperspace Guided Sampling to synchronize the diffusion sampling trajectories of multiple views using the hyperspace. Experimental results demonstrate that our method achieves high-fidelity and 3D-consistent time-synchronized multi-view videos generation without training or fine-tuning for diffusion models.