OneWorld: Het Temmen van Scènegeneratie met 3D Geünificeerde Representatie Auto-encoder
OneWorld: Taming Scene Generation with 3D Unified Representation Autoencoder
March 17, 2026
Auteurs: Sensen Gao, Zhaoqing Wang, Qihang Cao, Dongdong Yu, Changhu Wang, Tongliang Liu, Mingming Gong, Jiawang Bian
cs.AI
Samenvatting
Bestaande op diffusie gebaseerde methoden voor 3D-scènegeneratie werken voornamelijk in 2D beeld/video latente ruimtes, wat het handhaven van cross-view uiterlijk- en geometrische consistentie inherent uitdagend maakt. Om deze kloof te overbruggen, presenteren wij OneWorld, een raamwerk dat diffusie direct uitvoert binnen een coherente 3D-representatieruimte. Centraal in onze aanpak staat de 3D Unified Representation Autoencoder (3D-URAE); deze benut vooraf getrainde 3D-foundationmodellen en versterkt hun geometrisch-centrische aard door uiterlijk in te brengen en semantiek te destilleren in een verenigde 3D latente ruimte. Verder introduceren wij een token-level Cross-View-Correspondence (CVC) consistentieverlies om structurele uitlijning tussen views expliciet af te dwingen, en stellen wij Manifold-Drift Forcing (MDF) voor om exposure bias tijdens training-inferentie te verminderen en een robuuste 3D-variëteit te vormen door gedrifte en originele representaties te mengen. Uitgebreide experimenten tonen aan dat OneWorld hoogwaardige 3D-scènes genereert met superieure cross-view consistentie vergeleken met state-of-the-art 2D-gebaseerde methoden. Onze code zal beschikbaar zijn op https://github.com/SensenGao/OneWorld.
English
Existing diffusion-based 3D scene generation methods primarily operate in 2D image/video latent spaces, which makes maintaining cross-view appearance and geometric consistency inherently challenging. To bridge this gap, we present OneWorld, a framework that performs diffusion directly within a coherent 3D representation space. Central to our approach is the 3D Unified Representation Autoencoder (3D-URAE); it leverages pretrained 3D foundation models and augments their geometry-centric nature by injecting appearance and distilling semantics into a unified 3D latent space. Furthermore, we introduce token-level Cross-View-Correspondence (CVC) consistency loss to explicitly enforce structural alignment across views, and propose Manifold-Drift Forcing (MDF) to mitigate train-inference exposure bias and shape a robust 3D manifold by mixing drifted and original representations. Comprehensive experiments demonstrate that OneWorld generates high-quality 3D scenes with superior cross-view consistency compared to state-of-the-art 2D-based methods. Our code will be available at https://github.com/SensenGao/OneWorld.