OneWorld: Domare la Generazione di Scene con un Autoencoder a Rappresentazione Unificata 3D
OneWorld: Taming Scene Generation with 3D Unified Representation Autoencoder
March 17, 2026
Autori: Sensen Gao, Zhaoqing Wang, Qihang Cao, Dongdong Yu, Changhu Wang, Tongliang Liu, Mingming Gong, Jiawang Bian
cs.AI
Abstract
I metodi esistenti di generazione di scene 3D basati su diffusione operano principalmente in spazi latenti di immagini/video 2D, il che rende intrinsecamente difficile mantenere la coerenza dell'aspetto e geometrica tra le diverse viste. Per colmare questa lacuna, presentiamo OneWorld, un framework che esegue la diffusione direttamente all'interno di uno spazio di rappresentazione 3D coerente. Elemento centrale del nostro approccio è l'Autoencoder per la Rappresentazione Unificata 3D (3D-URAE); esso sfrutta modelli fondazione 3D pre-addestrati e ne potenzia la natura incentrata sulla geometria iniettando l'aspetto visivo e distillando la semantica in uno spazio latente 3D unificato. Inoltre, introduciamo una funzione di perdita di consistenza Corrispondenza-Intersezione-Visuale (CVC) a livello di token per imporre esplicitamente l'allineamento strutturale tra le viste, e proponiamo il Forzamento della Deriva sul Varietà (MDF) per mitigare il bias di esposizione addestramento-inferenza e modellare un varietà 3D robusto mescolando rappresentazioni derivate e originali. Esperimenti completi dimostrano che OneWorld genera scene 3D di alta qualità con una coerenza intersezione-visiva superiore rispetto ai metodi state-of-the-art basati su 2D. Il nostro codice sarà disponibile su https://github.com/SensenGao/OneWorld.
English
Existing diffusion-based 3D scene generation methods primarily operate in 2D image/video latent spaces, which makes maintaining cross-view appearance and geometric consistency inherently challenging. To bridge this gap, we present OneWorld, a framework that performs diffusion directly within a coherent 3D representation space. Central to our approach is the 3D Unified Representation Autoencoder (3D-URAE); it leverages pretrained 3D foundation models and augments their geometry-centric nature by injecting appearance and distilling semantics into a unified 3D latent space. Furthermore, we introduce token-level Cross-View-Correspondence (CVC) consistency loss to explicitly enforce structural alignment across views, and propose Manifold-Drift Forcing (MDF) to mitigate train-inference exposure bias and shape a robust 3D manifold by mixing drifted and original representations. Comprehensive experiments demonstrate that OneWorld generates high-quality 3D scenes with superior cross-view consistency compared to state-of-the-art 2D-based methods. Our code will be available at https://github.com/SensenGao/OneWorld.