OneWorld: Domando a Geração de Cenas com um Autoencoder de Representação Unificada 3D

Resumo

Os métodos existentes de geração de cenas 3D baseados em difusão operam principalmente em espaços latentes de imagem/vídeo 2D, o que torna inerentemente desafiador manter a consistência geométrica e de aparência entre vistas. Para preencher esta lacuna, apresentamos o OneWorld, uma estrutura que executa difusão diretamente dentro de um espaço de representação 3D coerente. O cerne de nossa abordagem é o Autoencoder de Representação Unificada 3D (3D-URAE); ele aproveita modelos de fundação 3D pré-treinados e aumenta sua natureza centrada na geometria, injetando aparência e destilando semântica em um espaço latente 3D unificado. Além disso, introduzimos uma perda de consistência de Correspondência Cruzada de Vista (CVC) em nível de *token* para impor explicitamente o alinhamento estrutural entre vistas, e propomos o Forçamento de Deriva de Variedade (MDF) para mitigar o viés de exposição treino-inferência e moldar uma variedade 3D robusta através da mistura de representações derivadas e originais. Experimentos abrangentes demonstram que o OneWorld gera cenas 3D de alta qualidade com consistência entre vistas superior em comparação com métodos state-of-the-art baseados em 2D. Nosso código estará disponível em https://github.com/SensenGao/OneWorld.

English

Existing diffusion-based 3D scene generation methods primarily operate in 2D image/video latent spaces, which makes maintaining cross-view appearance and geometric consistency inherently challenging. To bridge this gap, we present OneWorld, a framework that performs diffusion directly within a coherent 3D representation space. Central to our approach is the 3D Unified Representation Autoencoder (3D-URAE); it leverages pretrained 3D foundation models and augments their geometry-centric nature by injecting appearance and distilling semantics into a unified 3D latent space. Furthermore, we introduce token-level Cross-View-Correspondence (CVC) consistency loss to explicitly enforce structural alignment across views, and propose Manifold-Drift Forcing (MDF) to mitigate train-inference exposure bias and shape a robust 3D manifold by mixing drifted and original representations. Comprehensive experiments demonstrate that OneWorld generates high-quality 3D scenes with superior cross-view consistency compared to state-of-the-art 2D-based methods. Our code will be available at https://github.com/SensenGao/OneWorld.

OneWorld: Domando a Geração de Cenas com um Autoencoder de Representação Unificada 3D

OneWorld: Taming Scene Generation with 3D Unified Representation Autoencoder

Resumo

Support