OmniX: Da Geração e Percepção Panorâmica Unificada a Cenas 3D Prontas para Gráficos
OmniX: From Unified Panoramic Generation and Perception to Graphics-Ready 3D Scenes
October 30, 2025
Autores: Yukun Huang, Jiwen Yu, Yanning Zhou, Jianan Wang, Xintao Wang, Pengfei Wan, Xihui Liu
cs.AI
Resumo
Existem duas formas predominantes de construir cenas 3D: geração procedural e levantamento a partir de 2D. Entre elas, o levantamento baseado em panoramas emergiu como uma técnica promissora, aproveitando fortes prévios generativos 2D para produzir ambientes 3D imersivos, realistas e diversificados. Neste trabalho, avançamos esta técnica para gerar cenas 3D prontas para gráficos, adequadas para renderização fisicamente baseada (PBR), rerrenderização com nova iluminação e simulação. Nossa principal percepção é reaproveitar modelos generativos 2D para a percepção panorâmica de geometria, texturas e materiais PBR. Diferente das abordagens de levantamento 2D existentes, que enfatizam a geração de aparência e ignoram a percepção de propriedades intrínsecas, apresentamos o OmniX, uma estrutura versátil e unificada. Com base numa estrutura de adaptador cross-modal leve e eficiente, o OmniX reutiliza prévios generativos 2D para uma ampla gama de tarefas de visão panorâmica, incluindo percepção, geração e completamento panorâmicos. Adicionalmente, construímos um grande conjunto de dados sintético de panoramas, contendo panoramas multimodais de alta qualidade provenientes de diversas cenas internas e externas. Experimentos extensivos demonstram a eficácia do nosso modelo na percepção visual panorâmica e na geração de cenas 3D prontas para gráficos, abrindo novas possibilidades para a geração de mundos virtuais imersivos e fisicamente realistas.
English
There are two prevalent ways to constructing 3D scenes: procedural generation
and 2D lifting. Among them, panorama-based 2D lifting has emerged as a
promising technique, leveraging powerful 2D generative priors to produce
immersive, realistic, and diverse 3D environments. In this work, we advance
this technique to generate graphics-ready 3D scenes suitable for physically
based rendering (PBR), relighting, and simulation. Our key insight is to
repurpose 2D generative models for panoramic perception of geometry, textures,
and PBR materials. Unlike existing 2D lifting approaches that emphasize
appearance generation and ignore the perception of intrinsic properties, we
present OmniX, a versatile and unified framework. Based on a lightweight and
efficient cross-modal adapter structure, OmniX reuses 2D generative priors for
a broad range of panoramic vision tasks, including panoramic perception,
generation, and completion. Furthermore, we construct a large-scale synthetic
panorama dataset containing high-quality multimodal panoramas from diverse
indoor and outdoor scenes. Extensive experiments demonstrate the effectiveness
of our model in panoramic visual perception and graphics-ready 3D scene
generation, opening new possibilities for immersive and physically realistic
virtual world generation.