ChatPaper.aiChatPaper

Matrix-3D: Omnidirektionale erforschbare 3D-Weltgenerierung

Matrix-3D: Omnidirectional Explorable 3D World Generation

August 11, 2025
papers.authors: Zhongqi Yang, Wenhang Ge, Yuqi Li, Jiaqi Chen, Haoyuan Li, Mengyin An, Fei Kang, Hua Xue, Baixin Xu, Yuyang Yin, Eric Li, Yang Liu, Yikai Wang, Hao-Xiang Guo, Yahui Zhou
cs.AI

papers.abstract

Die Erzeugung von erkundbaren 3D-Welten aus einem einzelnen Bild oder Textprompt bildet einen Eckpfeiler der räumlichen Intelligenz. Aktuelle Arbeiten nutzen Videomodelle, um weitreichende und generalisierbare 3D-Welten zu erzeugen. Allerdings leiden bestehende Ansätze oft unter einer begrenzten Reichweite in den generierten Szenen. In dieser Arbeit schlagen wir Matrix-3D vor, ein Framework, das eine panoramische Darstellung für die weitreichende omnidirektionale Erzeugung erkundbarer 3D-Welten nutzt und dabei bedingte Videogenerierung mit panoramischer 3D-Rekonstruktion kombiniert. Zunächst trainieren wir ein trajektoriegeführtes panoramisches Video-Diffusionsmodell, das Szenen-Mesh-Renderings als Bedingung verwendet, um hochwertige und geometrisch konsistente Szenenvideos zu erzeugen. Um das Panoramaszenenvideo in eine 3D-Welt zu überführen, schlagen wir zwei separate Methoden vor: (1) ein vorwärtsgerichtetes großes Panorama-Rekonstruktionsmodell für die schnelle 3D-Szenenrekonstruktion und (2) eine optimierungsbasierte Pipeline für präzise und detaillierte 3D-Szenenrekonstruktion. Um ein effektives Training zu ermöglichen, führen wir auch den Matrix-Pano-Datensatz ein, die erste groß angelegte synthetische Sammlung, die 116K hochwertige statische panoramische Videosequenzen mit Tiefen- und Trajektorie-Annotationen umfasst. Umfangreiche Experimente zeigen, dass unser vorgeschlagenes Framework Spitzenleistungen in der panoramischen Videogenerierung und 3D-Welterzeugung erreicht. Weitere Informationen finden Sie unter https://matrix-3d.github.io.
English
Explorable 3D world generation from a single image or text prompt forms a cornerstone of spatial intelligence. Recent works utilize video model to achieve wide-scope and generalizable 3D world generation. However, existing approaches often suffer from a limited scope in the generated scenes. In this work, we propose Matrix-3D, a framework that utilize panoramic representation for wide-coverage omnidirectional explorable 3D world generation that combines conditional video generation and panoramic 3D reconstruction. We first train a trajectory-guided panoramic video diffusion model that employs scene mesh renders as condition, to enable high-quality and geometrically consistent scene video generation. To lift the panorama scene video to 3D world, we propose two separate methods: (1) a feed-forward large panorama reconstruction model for rapid 3D scene reconstruction and (2) an optimization-based pipeline for accurate and detailed 3D scene reconstruction. To facilitate effective training, we also introduce the Matrix-Pano dataset, the first large-scale synthetic collection comprising 116K high-quality static panoramic video sequences with depth and trajectory annotations. Extensive experiments demonstrate that our proposed framework achieves state-of-the-art performance in panoramic video generation and 3D world generation. See more in https://matrix-3d.github.io.
PDF623August 13, 2025