OmniX: Von einheitlicher Panorama-Erzeugung und -Wahrnehmung zu grafikfertigen 3D-Szenen
OmniX: From Unified Panoramic Generation and Perception to Graphics-Ready 3D Scenes
October 30, 2025
papers.authors: Yukun Huang, Jiwen Yu, Yanning Zhou, Jianan Wang, Xintao Wang, Pengfei Wan, Xihui Liu
cs.AI
papers.abstract
Es gibt zwei gängige Methoden zur Konstruktion von 3D-Szenen: prozedurale Generierung und 2D-Lifting. Dabei hat sich das auf Panoramen basierende 2D-Lifting als vielversprechende Technik herausgestellt, die leistungsstarke generative 2D-Priors nutzt, um immersive, realistische und vielfältige 3D-Umgebungen zu erzeugen. In dieser Arbeit erweitern wir diese Technik, um grafikfähige 3D-Szenen zu generieren, die für physikalisch basiertes Rendering (PBR), Neubeleuchtung und Simulation geeignet sind. Unser zentraler Ansatz ist die Umwidmung generativer 2D-Modelle für die panoramische Erfassung von Geometrie, Texturen und PBR-Materialien. Im Gegensatz zu bestehenden 2D-Lifting-Ansätzen, die die Erzeugung von Erscheinungsbildern betonen und die Erfassung intrinsischer Eigenschaften vernachlässigen, stellen wir OmniX vor, ein vielseitiges und vereinheitlichtes Framework. Basierend auf einer leichtgewichtigen und effizienten Cross-Modal-Adapter-Struktur wiederverwendet OmniX generative 2D-Priors für eine breite Palette panoramischer Sehaufgaben, einschließlich panoramischer Wahrnehmung, Generierung und Vervollständigung. Darüber hinaus erstellen wir einen großen synthetischen Panorama-Datensatz, der hochwertige multimodale Panoramen aus verschiedenen Innen- und Außenbereichen enthält. Umfangreiche Experimente belegen die Wirksamkeit unseres Modells in der panoramischen visuellen Wahrnehmung und der Erzeugung grafikfähiger 3D-Szenen und eröffnen neue Möglichkeiten für die Generierung immersiver und physikalisch realistischer virtueller Welten.
English
There are two prevalent ways to constructing 3D scenes: procedural generation
and 2D lifting. Among them, panorama-based 2D lifting has emerged as a
promising technique, leveraging powerful 2D generative priors to produce
immersive, realistic, and diverse 3D environments. In this work, we advance
this technique to generate graphics-ready 3D scenes suitable for physically
based rendering (PBR), relighting, and simulation. Our key insight is to
repurpose 2D generative models for panoramic perception of geometry, textures,
and PBR materials. Unlike existing 2D lifting approaches that emphasize
appearance generation and ignore the perception of intrinsic properties, we
present OmniX, a versatile and unified framework. Based on a lightweight and
efficient cross-modal adapter structure, OmniX reuses 2D generative priors for
a broad range of panoramic vision tasks, including panoramic perception,
generation, and completion. Furthermore, we construct a large-scale synthetic
panorama dataset containing high-quality multimodal panoramas from diverse
indoor and outdoor scenes. Extensive experiments demonstrate the effectiveness
of our model in panoramic visual perception and graphics-ready 3D scene
generation, opening new possibilities for immersive and physically realistic
virtual world generation.