Matrix-3D: Geração Omnidirecional de Mundos 3D Exploráveis
Matrix-3D: Omnidirectional Explorable 3D World Generation
August 11, 2025
Autores: Zhongqi Yang, Wenhang Ge, Yuqi Li, Jiaqi Chen, Haoyuan Li, Mengyin An, Fei Kang, Hua Xue, Baixin Xu, Yuyang Yin, Eric Li, Yang Liu, Yikai Wang, Hao-Xiang Guo, Yahui Zhou
cs.AI
Resumo
A geração de mundos 3D exploráveis a partir de uma única imagem ou prompt de texto constitui um pilar fundamental da inteligência espacial. Trabalhos recentes utilizam modelos de vídeo para alcançar a geração de mundos 3D de amplo escopo e generalizável. No entanto, as abordagens existentes frequentemente sofrem com um escopo limitado nas cenas geradas. Neste trabalho, propomos o Matrix-3D, um framework que utiliza representação panorâmica para a geração de mundos 3D exploráveis omnidirecionais de ampla cobertura, combinando geração condicional de vídeo e reconstrução panorâmica 3D. Primeiro, treinamos um modelo de difusão de vídeo panorâmico guiado por trajetória que emprega renderizações de malhas de cena como condição, permitindo a geração de vídeos de cena de alta qualidade e geometricamente consistentes. Para elevar o vídeo panorâmico da cena ao mundo 3D, propomos dois métodos separados: (1) um modelo de reconstrução de grande panorama de avanço rápido para reconstrução rápida de cenas 3D e (2) um pipeline baseado em otimização para reconstrução precisa e detalhada de cenas 3D. Para facilitar o treinamento eficaz, também introduzimos o conjunto de dados Matrix-Pano, a primeira coleção sintética em larga escala composta por 116K sequências de vídeo panorâmico estático de alta qualidade com anotações de profundidade e trajetória. Experimentos extensivos demonstram que o nosso framework proposto alcança desempenho de ponta na geração de vídeo panorâmico e na geração de mundos 3D. Veja mais em https://matrix-3d.github.io.
English
Explorable 3D world generation from a single image or text prompt forms a
cornerstone of spatial intelligence. Recent works utilize video model to
achieve wide-scope and generalizable 3D world generation. However, existing
approaches often suffer from a limited scope in the generated scenes. In this
work, we propose Matrix-3D, a framework that utilize panoramic representation
for wide-coverage omnidirectional explorable 3D world generation that combines
conditional video generation and panoramic 3D reconstruction. We first train a
trajectory-guided panoramic video diffusion model that employs scene mesh
renders as condition, to enable high-quality and geometrically consistent scene
video generation. To lift the panorama scene video to 3D world, we propose two
separate methods: (1) a feed-forward large panorama reconstruction model for
rapid 3D scene reconstruction and (2) an optimization-based pipeline for
accurate and detailed 3D scene reconstruction. To facilitate effective
training, we also introduce the Matrix-Pano dataset, the first large-scale
synthetic collection comprising 116K high-quality static panoramic video
sequences with depth and trajectory annotations. Extensive experiments
demonstrate that our proposed framework achieves state-of-the-art performance
in panoramic video generation and 3D world generation. See more in
https://matrix-3d.github.io.