ChatPaper.aiChatPaper

Matrix-3D : Génération omnidirectionnelle de mondes 3D explorables

Matrix-3D: Omnidirectional Explorable 3D World Generation

August 11, 2025
papers.authors: Zhongqi Yang, Wenhang Ge, Yuqi Li, Jiaqi Chen, Haoyuan Li, Mengyin An, Fei Kang, Hua Xue, Baixin Xu, Yuyang Yin, Eric Li, Yang Liu, Yikai Wang, Hao-Xiang Guo, Yahui Zhou
cs.AI

papers.abstract

La génération de mondes 3D explorables à partir d'une seule image ou d'une invite textuelle constitue une pierre angulaire de l'intelligence spatiale. Les travaux récents utilisent des modèles vidéo pour réaliser une génération de mondes 3D à grande échelle et généralisable. Cependant, les approches existantes souffrent souvent d'une portée limitée dans les scènes générées. Dans ce travail, nous proposons Matrix-3D, un cadre qui utilise une représentation panoramique pour la génération de mondes 3D omnidirectionnels explorables à grande couverture, combinant la génération vidéo conditionnelle et la reconstruction 3D panoramique. Nous entraînons d'abord un modèle de diffusion vidéo panoramique guidé par trajectoire qui utilise des rendus de maillage de scène comme condition, permettant ainsi une génération de vidéos de scène de haute qualité et géométriquement cohérentes. Pour transformer la vidéo panoramique en un monde 3D, nous proposons deux méthodes distinctes : (1) un modèle de reconstruction panoramique à grand échelle en flux direct pour une reconstruction rapide de scènes 3D, et (2) un pipeline basé sur l'optimisation pour une reconstruction précise et détaillée de scènes 3D. Pour faciliter un entraînement efficace, nous introduisons également le jeu de données Matrix-Pano, la première collection synthétique à grande échelle comprenant 116 000 séquences vidéo panoramiques statiques de haute qualité avec des annotations de profondeur et de trajectoire. Des expériences approfondies démontrent que notre cadre proposé atteint des performances de pointe en génération de vidéos panoramiques et en génération de mondes 3D. Pour en savoir plus, consultez https://matrix-3d.github.io.
English
Explorable 3D world generation from a single image or text prompt forms a cornerstone of spatial intelligence. Recent works utilize video model to achieve wide-scope and generalizable 3D world generation. However, existing approaches often suffer from a limited scope in the generated scenes. In this work, we propose Matrix-3D, a framework that utilize panoramic representation for wide-coverage omnidirectional explorable 3D world generation that combines conditional video generation and panoramic 3D reconstruction. We first train a trajectory-guided panoramic video diffusion model that employs scene mesh renders as condition, to enable high-quality and geometrically consistent scene video generation. To lift the panorama scene video to 3D world, we propose two separate methods: (1) a feed-forward large panorama reconstruction model for rapid 3D scene reconstruction and (2) an optimization-based pipeline for accurate and detailed 3D scene reconstruction. To facilitate effective training, we also introduce the Matrix-Pano dataset, the first large-scale synthetic collection comprising 116K high-quality static panoramic video sequences with depth and trajectory annotations. Extensive experiments demonstrate that our proposed framework achieves state-of-the-art performance in panoramic video generation and 3D world generation. See more in https://matrix-3d.github.io.
PDF623August 13, 2025