OneWorld: Укрощение генерации сцен с помощью 3D автоэнкодера унифицированного представления

Аннотация

Существующие методы генерации 3D-сцен на основе диффузии в основном работают в латентных пространствах 2D-изображений/видео, что изначально затрудняет обеспечение кросс-видовой согласованности внешнего вида и геометрии. Для преодоления этого разрыва мы представляем OneWorld — фреймворк, выполняющий диффузию непосредственно в связном 3D-пространстве представлений. Ключевым элементом нашего подхода является 3D-автокодировщик унифицированного представления (3D-URAE), который использует предварительно обученные 3D-фундаментальные модели и дополняет их геометрически-центричную природу путем внедрения информации о внешнем виде и дистилляции семантики в единое 3D-латентное пространство. Кроме того, мы вводим функцию потерь согласованности кросс-видового соответствия (CVC) на уровне токенов для явного принудительного структурного выравнивания между видами и предлагаем метод принудительного дрейфа многообразия (MDF) для снижения смещения экспозиции между обучением и выводом, а также для формирования устойчивого 3D-многообразия путем смешивания смещенных и исходных представлений. Комплексные эксперименты демонстрируют, что OneWorld генерирует высококачественные 3D-сцены с превосходной кросс-видовой согласованностью по сравнению с передовыми методами на основе 2D. Наш код будет доступен по адресу https://github.com/SensenGao/OneWorld.

English

Existing diffusion-based 3D scene generation methods primarily operate in 2D image/video latent spaces, which makes maintaining cross-view appearance and geometric consistency inherently challenging. To bridge this gap, we present OneWorld, a framework that performs diffusion directly within a coherent 3D representation space. Central to our approach is the 3D Unified Representation Autoencoder (3D-URAE); it leverages pretrained 3D foundation models and augments their geometry-centric nature by injecting appearance and distilling semantics into a unified 3D latent space. Furthermore, we introduce token-level Cross-View-Correspondence (CVC) consistency loss to explicitly enforce structural alignment across views, and propose Manifold-Drift Forcing (MDF) to mitigate train-inference exposure bias and shape a robust 3D manifold by mixing drifted and original representations. Comprehensive experiments demonstrate that OneWorld generates high-quality 3D scenes with superior cross-view consistency compared to state-of-the-art 2D-based methods. Our code will be available at https://github.com/SensenGao/OneWorld.

OneWorld: Укрощение генерации сцен с помощью 3D автоэнкодера унифицированного представления

OneWorld: Taming Scene Generation with 3D Unified Representation Autoencoder

Аннотация

Support