Matrix-3D: Generación Omnidireccional de Mundos 3D Explorables
Matrix-3D: Omnidirectional Explorable 3D World Generation
August 11, 2025
Autores: Zhongqi Yang, Wenhang Ge, Yuqi Li, Jiaqi Chen, Haoyuan Li, Mengyin An, Fei Kang, Hua Xue, Baixin Xu, Yuyang Yin, Eric Li, Yang Liu, Yikai Wang, Hao-Xiang Guo, Yahui Zhou
cs.AI
Resumen
La generación de mundos 3D explorables a partir de una sola imagen o un texto descriptivo constituye un pilar fundamental de la inteligencia espacial. Trabajos recientes utilizan modelos de video para lograr la generación de mundos 3D de amplio alcance y generalizables. Sin embargo, los enfoques existentes suelen adolecer de un alcance limitado en las escenas generadas. En este trabajo, proponemos Matrix-3D, un marco que utiliza representaciones panorámicas para la generación de mundos 3D omnidireccionales explorables de amplia cobertura, combinando la generación condicional de videos y la reconstrucción panorámica en 3D. Primero entrenamos un modelo de difusión de video panorámico guiado por trayectorias que emplea representaciones de mallas de escenas como condición, permitiendo la generación de videos de escenas de alta calidad y geométricamente consistentes. Para elevar el video panorámico de la escena a un mundo 3D, proponemos dos métodos separados: (1) un modelo de reconstrucción de panoramas grandes de avance rápido para la reconstrucción rápida de escenas 3D y (2) una canalización basada en optimización para la reconstrucción precisa y detallada de escenas 3D. Para facilitar un entrenamiento efectivo, también presentamos el conjunto de datos Matrix-Pano, la primera colección sintética a gran escala que comprende 116K secuencias de video panorámico estático de alta calidad con anotaciones de profundidad y trayectorias. Experimentos exhaustivos demuestran que nuestro marco propuesto alcanza un rendimiento de vanguardia en la generación de videos panorámicos y la generación de mundos 3D. Más información en https://matrix-3d.github.io.
English
Explorable 3D world generation from a single image or text prompt forms a
cornerstone of spatial intelligence. Recent works utilize video model to
achieve wide-scope and generalizable 3D world generation. However, existing
approaches often suffer from a limited scope in the generated scenes. In this
work, we propose Matrix-3D, a framework that utilize panoramic representation
for wide-coverage omnidirectional explorable 3D world generation that combines
conditional video generation and panoramic 3D reconstruction. We first train a
trajectory-guided panoramic video diffusion model that employs scene mesh
renders as condition, to enable high-quality and geometrically consistent scene
video generation. To lift the panorama scene video to 3D world, we propose two
separate methods: (1) a feed-forward large panorama reconstruction model for
rapid 3D scene reconstruction and (2) an optimization-based pipeline for
accurate and detailed 3D scene reconstruction. To facilitate effective
training, we also introduce the Matrix-Pano dataset, the first large-scale
synthetic collection comprising 116K high-quality static panoramic video
sequences with depth and trajectory annotations. Extensive experiments
demonstrate that our proposed framework achieves state-of-the-art performance
in panoramic video generation and 3D world generation. See more in
https://matrix-3d.github.io.