DreamCube: Генерация 3D-панорам с использованием синхронизации мультиплоскостей
DreamCube: 3D Panorama Generation via Multi-plane Synchronization
June 20, 2025
Авторы: Yukun Huang, Yanning Zhou, Jianan Wang, Kaiyi Huang, Xihui Liu
cs.AI
Аннотация
Синтез 3D панорам является перспективной, но сложной задачей, которая требует высококачественного и разнообразного визуального представления и геометрии создаваемого сферического контента. Существующие методы используют богатые априорные данные изображений из предобученных 2D базовых моделей, чтобы компенсировать недостаток 3D панорамных данных, однако несовместимость между 3D панорамами и 2D одиночными видами ограничивает их эффективность. В данной работе мы показываем, что применение многоплоскостной синхронизации к операторам из 2D базовых моделей позволяет бесшовно расширить их возможности на сферическую область. На основе этого подхода мы представляем DreamCube — многоплоскостную RGB-D диффузионную модель для генерации 3D панорам, которая максимизирует повторное использование априорных данных 2D базовых моделей для достижения разнообразного внешнего вида и точной геометрии при сохранении согласованности между видами. Многочисленные эксперименты демонстрируют эффективность нашего подхода в генерации панорамных изображений, оценке глубины панорам и создании 3D сцен.
English
3D panorama synthesis is a promising yet challenging task that demands
high-quality and diverse visual appearance and geometry of the generated
omnidirectional content. Existing methods leverage rich image priors from
pre-trained 2D foundation models to circumvent the scarcity of 3D panoramic
data, but the incompatibility between 3D panoramas and 2D single views limits
their effectiveness. In this work, we demonstrate that by applying multi-plane
synchronization to the operators from 2D foundation models, their capabilities
can be seamlessly extended to the omnidirectional domain. Based on this design,
we further introduce DreamCube, a multi-plane RGB-D diffusion model for 3D
panorama generation, which maximizes the reuse of 2D foundation model priors to
achieve diverse appearances and accurate geometry while maintaining multi-view
consistency. Extensive experiments demonstrate the effectiveness of our
approach in panoramic image generation, panoramic depth estimation, and 3D
scene generation.