Matrix-3D: Generazione di Mondi 3D Omnidirezionali Esplorabili

Abstract

La generazione di mondi 3D esplorabili a partire da una singola immagine o prompt testuale costituisce un pilastro fondamentale dell'intelligenza spaziale. Recenti lavori utilizzano modelli video per ottenere una generazione di mondi 3D ampia e generalizzabile. Tuttavia, gli approcci esistenti spesso presentano una portata limitata nelle scene generate. In questo lavoro, proponiamo Matrix-3D, un framework che utilizza una rappresentazione panoramica per la generazione di mondi 3D esplorabili omnidirezionali a copertura ampia, combinando la generazione condizionata di video e la ricostruzione panoramica 3D. Inizialmente addestriamo un modello di diffusione video panoramico guidato da traiettorie che impiega rendering di mesh di scene come condizione, per consentire la generazione di video di scene di alta qualità e geometricamente coerenti. Per elevare il video panoramico della scena a un mondo 3D, proponiamo due metodi separati: (1) un modello di ricostruzione panoramica di grandi dimensioni in modalità feed-forward per una rapida ricostruzione 3D della scena e (2) una pipeline basata su ottimizzazione per una ricostruzione 3D della scena accurata e dettagliata. Per facilitare un addestramento efficace, introduciamo anche il dataset Matrix-Pano, la prima raccolta sintetica su larga scala che comprende 116K sequenze video panoramiche statiche di alta qualità con annotazioni di profondità e traiettorie. Esperimenti estesi dimostrano che il nostro framework proposto raggiunge prestazioni all'avanguardia nella generazione di video panoramici e nella generazione di mondi 3D. Per ulteriori dettagli, consultare https://matrix-3d.github.io.

English

Explorable 3D world generation from a single image or text prompt forms a cornerstone of spatial intelligence. Recent works utilize video model to achieve wide-scope and generalizable 3D world generation. However, existing approaches often suffer from a limited scope in the generated scenes. In this work, we propose Matrix-3D, a framework that utilize panoramic representation for wide-coverage omnidirectional explorable 3D world generation that combines conditional video generation and panoramic 3D reconstruction. We first train a trajectory-guided panoramic video diffusion model that employs scene mesh renders as condition, to enable high-quality and geometrically consistent scene video generation. To lift the panorama scene video to 3D world, we propose two separate methods: (1) a feed-forward large panorama reconstruction model for rapid 3D scene reconstruction and (2) an optimization-based pipeline for accurate and detailed 3D scene reconstruction. To facilitate effective training, we also introduce the Matrix-Pano dataset, the first large-scale synthetic collection comprising 116K high-quality static panoramic video sequences with depth and trajectory annotations. Extensive experiments demonstrate that our proposed framework achieves state-of-the-art performance in panoramic video generation and 3D world generation. See more in https://matrix-3d.github.io.

Matrix-3D: Generazione di Mondi 3D Omnidirezionali Esplorabili

Matrix-3D: Omnidirectional Explorable 3D World Generation

Abstract

Support