Matrix-3D: Generazione di Mondi 3D Omnidirezionali Esplorabili
Matrix-3D: Omnidirectional Explorable 3D World Generation
August 11, 2025
Autori: Zhongqi Yang, Wenhang Ge, Yuqi Li, Jiaqi Chen, Haoyuan Li, Mengyin An, Fei Kang, Hua Xue, Baixin Xu, Yuyang Yin, Eric Li, Yang Liu, Yikai Wang, Hao-Xiang Guo, Yahui Zhou
cs.AI
Abstract
La generazione di mondi 3D esplorabili a partire da una singola immagine o prompt testuale costituisce un pilastro fondamentale dell'intelligenza spaziale. Recenti lavori utilizzano modelli video per ottenere una generazione di mondi 3D ampia e generalizzabile. Tuttavia, gli approcci esistenti spesso presentano una portata limitata nelle scene generate. In questo lavoro, proponiamo Matrix-3D, un framework che utilizza una rappresentazione panoramica per la generazione di mondi 3D esplorabili omnidirezionali a copertura ampia, combinando la generazione condizionata di video e la ricostruzione panoramica 3D. Inizialmente addestriamo un modello di diffusione video panoramico guidato da traiettorie che impiega rendering di mesh di scene come condizione, per consentire la generazione di video di scene di alta qualità e geometricamente coerenti. Per elevare il video panoramico della scena a un mondo 3D, proponiamo due metodi separati: (1) un modello di ricostruzione panoramica di grandi dimensioni in modalità feed-forward per una rapida ricostruzione 3D della scena e (2) una pipeline basata su ottimizzazione per una ricostruzione 3D della scena accurata e dettagliata. Per facilitare un addestramento efficace, introduciamo anche il dataset Matrix-Pano, la prima raccolta sintetica su larga scala che comprende 116K sequenze video panoramiche statiche di alta qualità con annotazioni di profondità e traiettorie. Esperimenti estesi dimostrano che il nostro framework proposto raggiunge prestazioni all'avanguardia nella generazione di video panoramici e nella generazione di mondi 3D. Per ulteriori dettagli, consultare https://matrix-3d.github.io.
English
Explorable 3D world generation from a single image or text prompt forms a
cornerstone of spatial intelligence. Recent works utilize video model to
achieve wide-scope and generalizable 3D world generation. However, existing
approaches often suffer from a limited scope in the generated scenes. In this
work, we propose Matrix-3D, a framework that utilize panoramic representation
for wide-coverage omnidirectional explorable 3D world generation that combines
conditional video generation and panoramic 3D reconstruction. We first train a
trajectory-guided panoramic video diffusion model that employs scene mesh
renders as condition, to enable high-quality and geometrically consistent scene
video generation. To lift the panorama scene video to 3D world, we propose two
separate methods: (1) a feed-forward large panorama reconstruction model for
rapid 3D scene reconstruction and (2) an optimization-based pipeline for
accurate and detailed 3D scene reconstruction. To facilitate effective
training, we also introduce the Matrix-Pano dataset, the first large-scale
synthetic collection comprising 116K high-quality static panoramic video
sequences with depth and trajectory annotations. Extensive experiments
demonstrate that our proposed framework achieves state-of-the-art performance
in panoramic video generation and 3D world generation. See more in
https://matrix-3d.github.io.