ChatPaper.aiChatPaper

OmniX: Dalla generazione e percezione panoramica unificata a scene 3D pronte per la grafica

OmniX: From Unified Panoramic Generation and Perception to Graphics-Ready 3D Scenes

October 30, 2025
Autori: Yukun Huang, Jiwen Yu, Yanning Zhou, Jianan Wang, Xintao Wang, Pengfei Wan, Xihui Liu
cs.AI

Abstract

Esistono due metodi prevalenti per costruire scene 3D: la generazione procedurale e il "sollevamento" 2D (2D lifting). Tra questi, il 2D lifting basato su panorami è emerso come una tecnica promettente, che sfrutta potenti prior generative 2D per produrre ambienti 3D immersivi, realistici e diversificati. In questo lavoro, facciamo progredire questa tecnica per generare scene 3D pronte per la grafica, adatte per il rendering fisicamente basato (PBR), la riluminazione e la simulazione. La nostra intuizione chiave è riutilizzare modelli generativi 2D per la percezione panoramica di geometria, texture e materiali PBR. A differenza degli approcci di 2D lifting esistenti che enfatizzano la generazione dell'aspetto e ignorano la percezione delle proprietà intrinseche, noi presentiamo OmniX, un framework versatile e unificato. Basato su una struttura adattatrice cross-modale leggera ed efficiente, OmniX riutilizza le prior generative 2D per un'ampia gamma di compiti di visione panoramica, inclusi percezione, generazione e completamento panoramico. Inoltre, abbiamo costruito un ampio dataset sintetico di panorami che contiene panorami multimodali di alta qualità provenienti da varie scene indoor e outdoor. Esperimenti estensivi dimostrano l'efficacia del nostro modello nella percezione visiva panoramica e nella generazione di scene 3D pronte per la grafica, aprendo nuove possibilità per la generazione immersiva e fisicamente realistica di mondi virtuali.
English
There are two prevalent ways to constructing 3D scenes: procedural generation and 2D lifting. Among them, panorama-based 2D lifting has emerged as a promising technique, leveraging powerful 2D generative priors to produce immersive, realistic, and diverse 3D environments. In this work, we advance this technique to generate graphics-ready 3D scenes suitable for physically based rendering (PBR), relighting, and simulation. Our key insight is to repurpose 2D generative models for panoramic perception of geometry, textures, and PBR materials. Unlike existing 2D lifting approaches that emphasize appearance generation and ignore the perception of intrinsic properties, we present OmniX, a versatile and unified framework. Based on a lightweight and efficient cross-modal adapter structure, OmniX reuses 2D generative priors for a broad range of panoramic vision tasks, including panoramic perception, generation, and completion. Furthermore, we construct a large-scale synthetic panorama dataset containing high-quality multimodal panoramas from diverse indoor and outdoor scenes. Extensive experiments demonstrate the effectiveness of our model in panoramic visual perception and graphics-ready 3D scene generation, opening new possibilities for immersive and physically realistic virtual world generation.
PDF212December 2, 2025