Matrix-3D: 全方位探索可能な3Dワールド生成
Matrix-3D: Omnidirectional Explorable 3D World Generation
August 11, 2025
著者: Zhongqi Yang, Wenhang Ge, Yuqi Li, Jiaqi Chen, Haoyuan Li, Mengyin An, Fei Kang, Hua Xue, Baixin Xu, Yuyang Yin, Eric Li, Yang Liu, Yikai Wang, Hao-Xiang Guo, Yahui Zhou
cs.AI
要旨
単一画像またはテキストプロンプトから探索可能な3Dワールドを生成することは、空間知能の基盤を形成します。最近の研究では、広範囲にわたる汎用的な3Dワールド生成を実現するためにビデオモデルが利用されています。しかし、既存の手法では生成されるシーンの範囲が限定的であることがしばしば問題となります。本研究では、条件付きビデオ生成とパノラマ3D再構成を組み合わせた広範囲カバレッジの全方向探索可能な3Dワールド生成を実現するため、Matrix-3Dというフレームワークを提案します。まず、シーンメッシュレンダリングを条件として使用する軌道誘導型パノラマビデオ拡散モデルを訓練し、高品質で幾何学的に一貫したシーンビデオ生成を可能にします。次に、パノラマシーンビデオを3Dワールドに変換するために、2つの異なる手法を提案します:(1)迅速な3Dシーン再構成のためのフィードフォワード型大規模パノラマ再構成モデル、(2)正確で詳細な3Dシーン再構成のための最適化ベースのパイプラインです。効果的な訓練を促進するため、深さと軌道アノテーションを備えた116Kの高品質な静的パノラマビデオシーケンスを含む初の大規模合成データセットであるMatrix-Panoデータセットも導入しました。広範な実験により、提案したフレームワークがパノラマビデオ生成および3Dワールド生成において最先端の性能を達成することが実証されています。詳細はhttps://matrix-3d.github.ioをご覧ください。
English
Explorable 3D world generation from a single image or text prompt forms a
cornerstone of spatial intelligence. Recent works utilize video model to
achieve wide-scope and generalizable 3D world generation. However, existing
approaches often suffer from a limited scope in the generated scenes. In this
work, we propose Matrix-3D, a framework that utilize panoramic representation
for wide-coverage omnidirectional explorable 3D world generation that combines
conditional video generation and panoramic 3D reconstruction. We first train a
trajectory-guided panoramic video diffusion model that employs scene mesh
renders as condition, to enable high-quality and geometrically consistent scene
video generation. To lift the panorama scene video to 3D world, we propose two
separate methods: (1) a feed-forward large panorama reconstruction model for
rapid 3D scene reconstruction and (2) an optimization-based pipeline for
accurate and detailed 3D scene reconstruction. To facilitate effective
training, we also introduce the Matrix-Pano dataset, the first large-scale
synthetic collection comprising 116K high-quality static panoramic video
sequences with depth and trajectory annotations. Extensive experiments
demonstrate that our proposed framework achieves state-of-the-art performance
in panoramic video generation and 3D world generation. See more in
https://matrix-3d.github.io.