DreamCube: 3D Panorama-generatie via multi-vlak synchronisatie
DreamCube: 3D Panorama Generation via Multi-plane Synchronization
June 20, 2025
Auteurs: Yukun Huang, Yanning Zhou, Jianan Wang, Kaiyi Huang, Xihui Liu
cs.AI
Samenvatting
3D-panoramasynthese is een veelbelovende maar uitdagende taak die een hoogwaardige en diverse visuele uitstraling en geometrie vereist van het gegenereerde omnidirectionele beeld. Bestaande methoden maken gebruik van rijke beeldprioriteiten van vooraf getrainde 2D-basismodellen om het gebrek aan 3D-panoramadata te omzeilen, maar de onverenigbaarheid tussen 3D-panorama's en 2D-enkelbeelden beperkt hun effectiviteit. In dit werk tonen we aan dat door multi-plane synchronisatie toe te passen op de operatoren van 2D-basismodellen, hun mogelijkheden naadloos kunnen worden uitgebreid naar het omnidirectionele domein. Op basis van dit ontwerp introduceren we verder DreamCube, een multi-plane RGB-D diffusiemodel voor 3D-panoramageneratie, dat het hergebruik van 2D-basismodelprioriteiten maximaliseert om diverse uitstralingen en nauwkeurige geometrie te bereiken, terwijl multi-view consistentie wordt behouden. Uitgebreide experimenten demonstreren de effectiviteit van onze aanpak in panoramabeeldgeneratie, panoramadiepteschatting en 3D-scenegeneratie.
English
3D panorama synthesis is a promising yet challenging task that demands
high-quality and diverse visual appearance and geometry of the generated
omnidirectional content. Existing methods leverage rich image priors from
pre-trained 2D foundation models to circumvent the scarcity of 3D panoramic
data, but the incompatibility between 3D panoramas and 2D single views limits
their effectiveness. In this work, we demonstrate that by applying multi-plane
synchronization to the operators from 2D foundation models, their capabilities
can be seamlessly extended to the omnidirectional domain. Based on this design,
we further introduce DreamCube, a multi-plane RGB-D diffusion model for 3D
panorama generation, which maximizes the reuse of 2D foundation model priors to
achieve diverse appearances and accurate geometry while maintaining multi-view
consistency. Extensive experiments demonstrate the effectiveness of our
approach in panoramic image generation, panoramic depth estimation, and 3D
scene generation.