4K4DGen: Geração Panorâmica 4D em Resolução 4K
4K4DGen: Panoramic 4D Generation at 4K Resolution
June 19, 2024
Autores: Renjie Li, Panwang Pan, Bangbang Yang, Dejia Xu, Shijie Zhou, Xuanyang Zhang, Zeming Li, Achuta Kadambi, Zhangyang Wang, Zhiwen Fan
cs.AI
Resumo
O florescimento das tecnologias de realidade virtual e realidade aumentada (RV/RA) tem impulsionado uma demanda crescente pela criação de ambientes imersivos, dinâmicos e de alta qualidade. No entanto, as técnicas generativas existentes geralmente se concentram apenas em objetos dinâmicos ou realizam a saída a partir de uma única imagem de perspectiva, não atendendo às necessidades das aplicações de RV/RA. Neste trabalho, abordamos a desafiadora tarefa de elevar um único panorama para uma experiência imersiva 4D. Demonstramos, pela primeira vez, a capacidade de gerar cenas dinâmicas omnidirecionais com visualização de 360 graus em resolução 4K, proporcionando assim uma experiência imersiva ao usuário. Nosso método introduz um pipeline que facilita animações naturais de cenas e otimiza um conjunto de Gaussianas 4D utilizando técnicas eficientes de splatting para exploração em tempo real. Para superar a falta de dados e modelos 4D anotados em escala de cena, especialmente em formatos panorâmicos, propomos um novo Desnecessador Panorâmico que adapta priores de difusão 2D genéricos para animar de forma consistente em imagens de 360 graus, transformando-as em vídeos panorâmicos com cenas dinâmicas em regiões específicas. Posteriormente, elevamos o vídeo panorâmico para um ambiente imersivo 4D, preservando a consistência espacial e temporal. Ao transferir conhecimento prévio de modelos 2D do domínio de perspectiva para o domínio panorâmico e a elevação 4D com regularização de aparência espacial e geometria, alcançamos a geração de Panorama-para-4D de alta qualidade pela primeira vez, com uma resolução de (4096 vezes 2048). Consulte o site do projeto em https://4k4dgen.github.io.
English
The blooming of virtual reality and augmented reality (VR/AR) technologies
has driven an increasing demand for the creation of high-quality, immersive,
and dynamic environments. However, existing generative techniques either focus
solely on dynamic objects or perform outpainting from a single perspective
image, failing to meet the needs of VR/AR applications. In this work, we tackle
the challenging task of elevating a single panorama to an immersive 4D
experience. For the first time, we demonstrate the capability to generate
omnidirectional dynamic scenes with 360-degree views at 4K resolution, thereby
providing an immersive user experience. Our method introduces a pipeline that
facilitates natural scene animations and optimizes a set of 4D Gaussians using
efficient splatting techniques for real-time exploration. To overcome the lack
of scene-scale annotated 4D data and models, especially in panoramic formats,
we propose a novel Panoramic Denoiser that adapts generic 2D diffusion priors
to animate consistently in 360-degree images, transforming them into panoramic
videos with dynamic scenes at targeted regions. Subsequently, we elevate the
panoramic video into a 4D immersive environment while preserving spatial and
temporal consistency. By transferring prior knowledge from 2D models in the
perspective domain to the panoramic domain and the 4D lifting with spatial
appearance and geometry regularization, we achieve high-quality Panorama-to-4D
generation at a resolution of (4096 times 2048) for the first time. See the
project website at https://4k4dgen.github.io.