ChatPaper.aiChatPaper

クロノスオブザーバー:超空間拡散サンプリングによる4次元世界の制御

ChronosObserver: Taming 4D World with Hyperspace Diffusion Sampling

December 1, 2025
著者: Qisen Wang, Yifan Zhao, Peisen Shen, Jialu Li, Jia Li
cs.AI

要旨

既存のカメラ制御型動画生成モデルは映画的な結果を生成可能だが、3D一貫性と高精細な時間同期マルチビュー動画の生成へ直接拡張することは依然として困難であり、これは4D世界を制御するための重要な能力である。一部の研究はデータ拡張やテスト時最適化を採用するが、これらの手法はモデルの一般化能力の限界と拡張性の問題に制約される。そこで本論文はChronosObserverを提案する。これは学習不要な手法であり、4D世界シーンの時空間的制約を表現する「世界状態ハイパースペース」と、ハイパースペースを用いて複数ビューの拡散サンプリング軌道を同期させる「ハイパースペース誘導サンプリング」を含む。実験結果により、本手法が拡散モデルの学習やファインチューニングを必要とせず、高精細かつ3D一貫性のある時間同期マルチビュー動画の生成を実現することを示す。
English
Although prevailing camera-controlled video generation models can produce cinematic results, lifting them directly to the generation of 3D-consistent and high-fidelity time-synchronized multi-view videos remains challenging, which is a pivotal capability for taming 4D worlds. Some works resort to data augmentation or test-time optimization, but these strategies are constrained by limited model generalization and scalability issues. To this end, we propose ChronosObserver, a training-free method including World State Hyperspace to represent the spatiotemporal constraints of a 4D world scene, and Hyperspace Guided Sampling to synchronize the diffusion sampling trajectories of multiple views using the hyperspace. Experimental results demonstrate that our method achieves high-fidelity and 3D-consistent time-synchronized multi-view videos generation without training or fine-tuning for diffusion models.
PDF22December 3, 2025