ChatPaper.aiChatPaper

DreamCube: Geração de Panoramas 3D via Sincronização de Múltiplos Planos

DreamCube: 3D Panorama Generation via Multi-plane Synchronization

June 20, 2025
Autores: Yukun Huang, Yanning Zhou, Jianan Wang, Kaiyi Huang, Xihui Liu
cs.AI

Resumo

A síntese de panoramas 3D é uma tarefa promissora, porém desafiadora, que exige uma aparência visual de alta qualidade e diversificada, além de uma geometria precisa do conteúdo omnidirecional gerado. Métodos existentes aproveitam priors ricos de imagens de modelos de base pré-treinados em 2D para contornar a escassez de dados panorâmicos 3D, mas a incompatibilidade entre panoramas 3D e visões únicas 2D limita sua eficácia. Neste trabalho, demonstramos que, ao aplicar a sincronização de múltiplos planos aos operadores de modelos de base 2D, suas capacidades podem ser estendidas de forma contínua ao domínio omnidirecional. Com base nesse design, introduzimos o DreamCube, um modelo de difusão RGB-D de múltiplos planos para geração de panoramas 3D, que maximiza a reutilização dos priors de modelos de base 2D para alcançar aparências diversas e geometria precisa, mantendo a consistência de múltiplas visões. Experimentos extensivos demonstram a eficácia de nossa abordagem na geração de imagens panorâmicas, estimativa de profundidade panorâmica e geração de cenas 3D.
English
3D panorama synthesis is a promising yet challenging task that demands high-quality and diverse visual appearance and geometry of the generated omnidirectional content. Existing methods leverage rich image priors from pre-trained 2D foundation models to circumvent the scarcity of 3D panoramic data, but the incompatibility between 3D panoramas and 2D single views limits their effectiveness. In this work, we demonstrate that by applying multi-plane synchronization to the operators from 2D foundation models, their capabilities can be seamlessly extended to the omnidirectional domain. Based on this design, we further introduce DreamCube, a multi-plane RGB-D diffusion model for 3D panorama generation, which maximizes the reuse of 2D foundation model priors to achieve diverse appearances and accurate geometry while maintaining multi-view consistency. Extensive experiments demonstrate the effectiveness of our approach in panoramic image generation, panoramic depth estimation, and 3D scene generation.
PDF215June 23, 2025