ChatPaper.aiChatPaper

OmniX: 통합 파노라마 생성 및 인식부터 그래픽 준비 3D 장면까지

OmniX: From Unified Panoramic Generation and Perception to Graphics-Ready 3D Scenes

October 30, 2025
저자: Yukun Huang, Jiwen Yu, Yanning Zhou, Jianan Wang, Xintao Wang, Pengfei Wan, Xihui Liu
cs.AI

초록

3D 장면을 구축하는 방법에는 절차적 생성과 2D 리프팅이라는 두 가지 보편적인 방식이 있습니다. 이 중 파노라마 기반 2D 리프팅은 강력한 2D 생성 사전 지식을 활용하여 몰입감 있고 현실적이며 다양한 3D 환경을 생성하는 유망한 기술로 부상했습니다. 본 연구에서는 이 기술을 발전시켜 물리 기반 렌더링(PBR), 재조명, 시뮬레이션에 적합한 그래픽 지원 3D 장면을 생성합니다. 우리의 핵심 통찰은 2D 생성 모델을 지오메트리, 텍스처, PBR 재질에 대한 파노라마 인식으로 재활용하는 것입니다. 외관 생성에 중점을 두고 내재적 속성 인식을 간과하는 기존 2D 리프팅 접근법과 달리, 우리는 다목적 통합 프레임워크인 OmniX를 제시합니다. 경량이고 효율적인 크로스 모달 어댑터 구조를 기반으로 하는 OmniX는 파노라마 인식, 생성, 완성을 포함한 광범위한 파노라마 비전 작업에 2D 생성 사전 지식을 재사용합니다. 더 나아가 우리는 다양한 실내외 장면에서 추출한 고품질 멀티모달 파노라마로 구성된 대규모 합성 파노라마 데이터셋을 구축했습니다. 폭넓은 실험을 통해 우리 모델의 파노라마 시각 인식 및 그래픽 지원 3D 장면 생성 성능을 입증하여, 몰입적이고 물리적으로 현실적인 가상 세계 생성의 새로운 가능성을 제시합니다.
English
There are two prevalent ways to constructing 3D scenes: procedural generation and 2D lifting. Among them, panorama-based 2D lifting has emerged as a promising technique, leveraging powerful 2D generative priors to produce immersive, realistic, and diverse 3D environments. In this work, we advance this technique to generate graphics-ready 3D scenes suitable for physically based rendering (PBR), relighting, and simulation. Our key insight is to repurpose 2D generative models for panoramic perception of geometry, textures, and PBR materials. Unlike existing 2D lifting approaches that emphasize appearance generation and ignore the perception of intrinsic properties, we present OmniX, a versatile and unified framework. Based on a lightweight and efficient cross-modal adapter structure, OmniX reuses 2D generative priors for a broad range of panoramic vision tasks, including panoramic perception, generation, and completion. Furthermore, we construct a large-scale synthetic panorama dataset containing high-quality multimodal panoramas from diverse indoor and outdoor scenes. Extensive experiments demonstrate the effectiveness of our model in panoramic visual perception and graphics-ready 3D scene generation, opening new possibilities for immersive and physically realistic virtual world generation.
PDF212December 2, 2025