OmniX: от унифицированной панорамной генерации и восприятия к 3D-сценам, готовым для графики
OmniX: From Unified Panoramic Generation and Perception to Graphics-Ready 3D Scenes
October 30, 2025
Авторы: Yukun Huang, Jiwen Yu, Yanning Zhou, Jianan Wang, Xintao Wang, Pengfei Wan, Xihui Liu
cs.AI
Аннотация
Существует два распространенных подхода к построению 3D-сцен: процедурная генерация и подъем из 2D. Среди них подъем на основе панорам зарекомендовал себя как перспективная техника, использующая мощные априорные знания 2D-генерации для создания иммерсивных, реалистичных и разнообразных 3D-окружений. В данной работе мы развиваем эту технику для генерации готовых к использованию в графике 3D-сцен, пригодных для физически корректного рендеринга (PBR), переосвещения и симуляции. Наше ключевое наблюдение заключается в перепрофилировании 2D-генеративных моделей для панорамного восприятия геометрии, текстур и PBR-материалов. В отличие от существующих подходов подъема из 2D, которые фокусируются на генерации внешнего вида и игнорируют восприятие внутренних свойств, мы представляем OmniX — универсальную и единую framework. Основанный на легковесной и эффективной кросс-модальной структуре-адаптере, OmniX повторно использует априорные знания 2D-генерации для широкого спектра панорамных задач компьютерного зрения, включая панорамное восприятие, генерацию и дополнение. Кроме того, мы создали крупномасштабный синтетический панорамный датасет, содержащий высококачественные мультимодальные панорамы из разнообразных интерьерных и экстерьерных сцен. Многочисленные эксперименты демонстрируют эффективность нашей модели в области панорамного визуального восприятия и генерации готовых к использованию в графике 3D-сцен, открывая новые возможности для создания иммерсивных и физически достоверных виртуальных миров.
English
There are two prevalent ways to constructing 3D scenes: procedural generation
and 2D lifting. Among them, panorama-based 2D lifting has emerged as a
promising technique, leveraging powerful 2D generative priors to produce
immersive, realistic, and diverse 3D environments. In this work, we advance
this technique to generate graphics-ready 3D scenes suitable for physically
based rendering (PBR), relighting, and simulation. Our key insight is to
repurpose 2D generative models for panoramic perception of geometry, textures,
and PBR materials. Unlike existing 2D lifting approaches that emphasize
appearance generation and ignore the perception of intrinsic properties, we
present OmniX, a versatile and unified framework. Based on a lightweight and
efficient cross-modal adapter structure, OmniX reuses 2D generative priors for
a broad range of panoramic vision tasks, including panoramic perception,
generation, and completion. Furthermore, we construct a large-scale synthetic
panorama dataset containing high-quality multimodal panoramas from diverse
indoor and outdoor scenes. Extensive experiments demonstrate the effectiveness
of our model in panoramic visual perception and graphics-ready 3D scene
generation, opening new possibilities for immersive and physically realistic
virtual world generation.