OneWorld : Domestiquer la génération de scènes avec un autoencodeur à représentation unifiée 3D
OneWorld: Taming Scene Generation with 3D Unified Representation Autoencoder
March 17, 2026
Auteurs: Sensen Gao, Zhaoqing Wang, Qihang Cao, Dongdong Yu, Changhu Wang, Tongliang Liu, Mingming Gong, Jiawang Bian
cs.AI
Résumé
Les méthodes existantes de génération de scènes 3D par diffusion opèrent principalement dans des espaces latents d'images/vidéos 2D, ce qui rend intrinsèquement difficile le maintien de la cohérence d'apparence et géométrique entre les vues. Pour combler cette lacune, nous présentons OneWorld, un cadre effectuant la diffusion directement dans un espace de représentation 3D cohérent. L'élément central de notre approche est l'Autoencodeur à Représentation Unifiée 3D (3D-URAE) ; il tire parti de modèles de fondation 3D préentraînés et augmente leur nature centrée sur la géométrie en injectant l'apparence et en distillant la sémantique dans un espace latent 3D unifié. De plus, nous introduisons une perte de cohérence par Correspondance Inter-Vues (CVC) au niveau des tokens pour imposer explicitement un alignement structurel entre les vues, et proposons le Forçage par Dérive de Variété (MDF) pour atténuer le biais d'exposition entraînement-inférence et façonner une variété 3D robuste en mélangeant des représentations dérivées et originales. Des expériences approfondies démontrent qu'OneWorld génère des scènes 3D de haute qualité avec une cohérence inter-vues supérieure aux méthodes état de l'art basées sur la 2D. Notre code sera disponible à l'adresse https://github.com/SensenGao/OneWorld.
English
Existing diffusion-based 3D scene generation methods primarily operate in 2D image/video latent spaces, which makes maintaining cross-view appearance and geometric consistency inherently challenging. To bridge this gap, we present OneWorld, a framework that performs diffusion directly within a coherent 3D representation space. Central to our approach is the 3D Unified Representation Autoencoder (3D-URAE); it leverages pretrained 3D foundation models and augments their geometry-centric nature by injecting appearance and distilling semantics into a unified 3D latent space. Furthermore, we introduce token-level Cross-View-Correspondence (CVC) consistency loss to explicitly enforce structural alignment across views, and propose Manifold-Drift Forcing (MDF) to mitigate train-inference exposure bias and shape a robust 3D manifold by mixing drifted and original representations. Comprehensive experiments demonstrate that OneWorld generates high-quality 3D scenes with superior cross-view consistency compared to state-of-the-art 2D-based methods. Our code will be available at https://github.com/SensenGao/OneWorld.