ChatPaper.aiChatPaper

DreamCube: 3D Panorama-generatie via multi-vlak synchronisatie

DreamCube: 3D Panorama Generation via Multi-plane Synchronization

June 20, 2025
Auteurs: Yukun Huang, Yanning Zhou, Jianan Wang, Kaiyi Huang, Xihui Liu
cs.AI

Samenvatting

3D-panoramasynthese is een veelbelovende maar uitdagende taak die een hoogwaardige en diverse visuele uitstraling en geometrie vereist van het gegenereerde omnidirectionele beeld. Bestaande methoden maken gebruik van rijke beeldprioriteiten van vooraf getrainde 2D-basismodellen om het gebrek aan 3D-panoramadata te omzeilen, maar de onverenigbaarheid tussen 3D-panorama's en 2D-enkelbeelden beperkt hun effectiviteit. In dit werk tonen we aan dat door multi-plane synchronisatie toe te passen op de operatoren van 2D-basismodellen, hun mogelijkheden naadloos kunnen worden uitgebreid naar het omnidirectionele domein. Op basis van dit ontwerp introduceren we verder DreamCube, een multi-plane RGB-D diffusiemodel voor 3D-panoramageneratie, dat het hergebruik van 2D-basismodelprioriteiten maximaliseert om diverse uitstralingen en nauwkeurige geometrie te bereiken, terwijl multi-view consistentie wordt behouden. Uitgebreide experimenten demonstreren de effectiviteit van onze aanpak in panoramabeeldgeneratie, panoramadiepteschatting en 3D-scenegeneratie.
English
3D panorama synthesis is a promising yet challenging task that demands high-quality and diverse visual appearance and geometry of the generated omnidirectional content. Existing methods leverage rich image priors from pre-trained 2D foundation models to circumvent the scarcity of 3D panoramic data, but the incompatibility between 3D panoramas and 2D single views limits their effectiveness. In this work, we demonstrate that by applying multi-plane synchronization to the operators from 2D foundation models, their capabilities can be seamlessly extended to the omnidirectional domain. Based on this design, we further introduce DreamCube, a multi-plane RGB-D diffusion model for 3D panorama generation, which maximizes the reuse of 2D foundation model priors to achieve diverse appearances and accurate geometry while maintaining multi-view consistency. Extensive experiments demonstrate the effectiveness of our approach in panoramic image generation, panoramic depth estimation, and 3D scene generation.
PDF215June 23, 2025