ChatPaper.aiChatPaper

Matrix-3D: Генерация всесторонне исследуемых 3D-миров

Matrix-3D: Omnidirectional Explorable 3D World Generation

August 11, 2025
Авторы: Zhongqi Yang, Wenhang Ge, Yuqi Li, Jiaqi Chen, Haoyuan Li, Mengyin An, Fei Kang, Hua Xue, Baixin Xu, Yuyang Yin, Eric Li, Yang Liu, Yikai Wang, Hao-Xiang Guo, Yahui Zhou
cs.AI

Аннотация

Генерация исследованных 3D-миров из одного изображения или текстового запроса является краеугольным камнем пространственного интеллекта. Современные работы используют видеомодели для достижения широкомасштабной и обобщаемой генерации 3D-миров. Однако существующие подходы часто страдают от ограниченного охвата в создаваемых сценах. В данной работе мы предлагаем Matrix-3D — фреймворк, который использует панорамное представление для генерации широкоохватных и всесторонне исследованных 3D-миров, сочетая условную генерацию видео и панорамную 3D-реконструкцию. Сначала мы обучаем модель диффузии панорамного видео, управляемую траекторией, которая использует рендеры сцен в виде мешей в качестве условия, чтобы обеспечить генерацию высококачественных и геометрически согласованных видеосцен. Для преобразования панорамного видеоряда в 3D-мир мы предлагаем два отдельных метода: (1) прямую модель реконструкции больших панорам для быстрого восстановления 3D-сцен и (2) оптимизационный конвейер для точного и детального восстановления 3D-сцен. Для эффективного обучения мы также представляем набор данных Matrix-Pano — первую крупномасштабную синтетическую коллекцию, содержащую 116 тысяч высококачественных статических панорамных видеопоследовательностей с аннотациями глубины и траекторий. Многочисленные эксперименты демонстрируют, что наш фреймворк достигает передовых результатов в генерации панорамного видео и 3D-миров. Подробнее см. на https://matrix-3d.github.io.
English
Explorable 3D world generation from a single image or text prompt forms a cornerstone of spatial intelligence. Recent works utilize video model to achieve wide-scope and generalizable 3D world generation. However, existing approaches often suffer from a limited scope in the generated scenes. In this work, we propose Matrix-3D, a framework that utilize panoramic representation for wide-coverage omnidirectional explorable 3D world generation that combines conditional video generation and panoramic 3D reconstruction. We first train a trajectory-guided panoramic video diffusion model that employs scene mesh renders as condition, to enable high-quality and geometrically consistent scene video generation. To lift the panorama scene video to 3D world, we propose two separate methods: (1) a feed-forward large panorama reconstruction model for rapid 3D scene reconstruction and (2) an optimization-based pipeline for accurate and detailed 3D scene reconstruction. To facilitate effective training, we also introduce the Matrix-Pano dataset, the first large-scale synthetic collection comprising 116K high-quality static panoramic video sequences with depth and trajectory annotations. Extensive experiments demonstrate that our proposed framework achieves state-of-the-art performance in panoramic video generation and 3D world generation. See more in https://matrix-3d.github.io.
PDF623August 13, 2025