Matrix-3D: Omnidirectionaal verkennende 3D-wereldgeneratie
Matrix-3D: Omnidirectional Explorable 3D World Generation
August 11, 2025
Auteurs: Zhongqi Yang, Wenhang Ge, Yuqi Li, Jiaqi Chen, Haoyuan Li, Mengyin An, Fei Kang, Hua Xue, Baixin Xu, Yuyang Yin, Eric Li, Yang Liu, Yikai Wang, Hao-Xiang Guo, Yahui Zhou
cs.AI
Samenvatting
Het genereren van verkennbare 3D-werelden vanuit een enkele afbeelding of tekstprompt vormt een hoeksteen van ruimtelijke intelligentie. Recente werken maken gebruik van videomodellen om brede en generaliseerbare 3D-wereldgeneratie te bereiken. Bestaande benaderingen kampen echter vaak met een beperkte reikwijdte in de gegenereerde scènes. In dit werk stellen we Matrix-3D voor, een raamwerk dat panoramische representatie benut voor brede, alomvattende verkennbare 3D-wereldgeneratie, waarbij conditionele videogeneratie en panoramische 3D-reconstructie worden gecombineerd. We trainen eerst een trajectgeguideerd panoramisch videodiffusiemodel dat scènemesh-renders als conditie gebruikt, om hoogwaardige en geometrisch consistente scènevideogeneratie mogelijk te maken. Om de panoramische scènevideo naar een 3D-wereld te tillen, stellen we twee afzonderlijke methoden voor: (1) een feed-forward groot panoramisch reconstructiemodel voor snelle 3D-scènereconstructie en (2) een op optimalisatie gebaseerde pijplijn voor nauwkeurige en gedetailleerde 3D-scènereconstructie. Om effectieve training te faciliteren, introduceren we ook de Matrix-Pano-dataset, de eerste grootschalige synthetische collectie bestaande uit 116K hoogwaardige statische panoramische videosequenties met diepte- en trajectannotaties. Uitgebreide experimenten tonen aan dat ons voorgestelde raamwerk state-of-the-art prestaties bereikt in panoramische videogeneratie en 3D-wereldgeneratie. Zie meer op https://matrix-3d.github.io.
English
Explorable 3D world generation from a single image or text prompt forms a
cornerstone of spatial intelligence. Recent works utilize video model to
achieve wide-scope and generalizable 3D world generation. However, existing
approaches often suffer from a limited scope in the generated scenes. In this
work, we propose Matrix-3D, a framework that utilize panoramic representation
for wide-coverage omnidirectional explorable 3D world generation that combines
conditional video generation and panoramic 3D reconstruction. We first train a
trajectory-guided panoramic video diffusion model that employs scene mesh
renders as condition, to enable high-quality and geometrically consistent scene
video generation. To lift the panorama scene video to 3D world, we propose two
separate methods: (1) a feed-forward large panorama reconstruction model for
rapid 3D scene reconstruction and (2) an optimization-based pipeline for
accurate and detailed 3D scene reconstruction. To facilitate effective
training, we also introduce the Matrix-Pano dataset, the first large-scale
synthetic collection comprising 116K high-quality static panoramic video
sequences with depth and trajectory annotations. Extensive experiments
demonstrate that our proposed framework achieves state-of-the-art performance
in panoramic video generation and 3D world generation. See more in
https://matrix-3d.github.io.