NeoVerse:4D世界モデルの実世界単眼動画による拡張
NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos
January 1, 2026
著者: Yuxue Yang, Lue Fan, Ziqi Shi, Junran Peng, Feng Wang, Zhaoxiang Zhang
cs.AI
要旨
本論文では、4次元再構成、新規軌道ビデオ生成、および豊富な下流アプリケーションが可能な汎用4Dワールドモデル「NeoVerse」を提案する。我々はまず、現在の4Dワールドモデリング手法におけるスケーラビリティの共通課題を特定した。これは高価で特殊なマルチビュー4Dデータ、あるいは煩雑な学習前処理に起因するものである。対照的に、NeoVerseは多様な実世界モノクロ動画への完全なパイプラインのスケーラビリティを実現する核心的設計思想に基づいている。具体的には、NeoVerseは姿勢推定を必要としないフィードフォワード型4D再構成、オンライン単眼劣化パターンシミュレーション、および他のよく整合された技術を特徴とする。これらの設計により、NeoVerseは多様な領域への汎用性と一般化性能を獲得している。同時に、NeoVerseは標準的な再構成および生成ベンチマークにおいて最先端の性能を達成した。プロジェクトページはhttps://neoverse-4d.github.ioで公開されている。
English
In this paper, we propose NeoVerse, a versatile 4D world model that is capable of 4D reconstruction, novel-trajectory video generation, and rich downstream applications. We first identify a common limitation of scalability in current 4D world modeling methods, caused either by expensive and specialized multi-view 4D data or by cumbersome training pre-processing. In contrast, our NeoVerse is built upon a core philosophy that makes the full pipeline scalable to diverse in-the-wild monocular videos. Specifically, NeoVerse features pose-free feed-forward 4D reconstruction, online monocular degradation pattern simulation, and other well-aligned techniques. These designs empower NeoVerse with versatility and generalization to various domains. Meanwhile, NeoVerse achieves state-of-the-art performance in standard reconstruction and generation benchmarks. Our project page is available at https://neoverse-4d.github.io