ChatPaper.aiChatPaper

OmniX: De la generación y percepción panorámica unificada a escenas 3D listas para gráficos

OmniX: From Unified Panoramic Generation and Perception to Graphics-Ready 3D Scenes

October 30, 2025
Autores: Yukun Huang, Jiwen Yu, Yanning Zhou, Jianan Wang, Xintao Wang, Pengfei Wan, Xihui Liu
cs.AI

Resumen

Existen dos métodos predominantes para construir escenas 3D: la generación procedural y la elevación desde 2D. Entre ellos, la elevación basada en panorámicas ha surgido como una técnica prometedora, aprovechando potentes priors generativos 2D para producir entornos 3D inmersivos, realistas y diversos. En este trabajo, avanzamos esta técnica para generar escenas 3D listas para gráficos, aptas para renderizado basado en física (PBR), relighting y simulación. Nuestra idea clave es readaptar modelos generativos 2D para la percepción panorámica de geometría, texturas y materiales PBR. A diferencia de los enfoques de elevación 2D existentes que enfatizan la generación de apariencia e ignoran la percepción de propiedades intrínsecas, presentamos OmniX, un marco versátil y unificado. Basado en una estructura adaptadora multimodal ligera y eficiente, OmniX reutiliza priors generativos 2D para una amplia gama de tareas de visión panorámica, incluyendo percepción, generación y completado panorámico. Además, construimos un extenso dataset sintético de panorámicas que contiene panoramas multimodales de alta calidad de diversas escenas interiores y exteriores. Experimentos exhaustivos demuestran la efectividad de nuestro modelo en la percepción visual panorámica y la generación de escenas 3D listas para gráficos, abriendo nuevas posibilidades para la generación inmersiva y físicamente realista de mundos virtuales.
English
There are two prevalent ways to constructing 3D scenes: procedural generation and 2D lifting. Among them, panorama-based 2D lifting has emerged as a promising technique, leveraging powerful 2D generative priors to produce immersive, realistic, and diverse 3D environments. In this work, we advance this technique to generate graphics-ready 3D scenes suitable for physically based rendering (PBR), relighting, and simulation. Our key insight is to repurpose 2D generative models for panoramic perception of geometry, textures, and PBR materials. Unlike existing 2D lifting approaches that emphasize appearance generation and ignore the perception of intrinsic properties, we present OmniX, a versatile and unified framework. Based on a lightweight and efficient cross-modal adapter structure, OmniX reuses 2D generative priors for a broad range of panoramic vision tasks, including panoramic perception, generation, and completion. Furthermore, we construct a large-scale synthetic panorama dataset containing high-quality multimodal panoramas from diverse indoor and outdoor scenes. Extensive experiments demonstrate the effectiveness of our model in panoramic visual perception and graphics-ready 3D scene generation, opening new possibilities for immersive and physically realistic virtual world generation.
PDF212December 2, 2025