LDM3D-VR: Modelo de Difusão Latente para Realidade Virtual 3D
LDM3D-VR: Latent Diffusion Model for 3D VR
November 6, 2023
Autores: Gabriela Ben Melech Stan, Diana Wofk, Estelle Aflalo, Shao-Yen Tseng, Zhipeng Cai, Michael Paulitsch, Vasudev Lal
cs.AI
Resumo
Os modelos de difusão latente têm se mostrado de ponta na criação e manipulação de saídas visuais. No entanto, até onde sabemos, a geração de mapas de profundidade em conjunto com RGB ainda é limitada. Apresentamos o LDM3D-VR, um conjunto de modelos de difusão voltados para o desenvolvimento de realidade virtual que inclui o LDM3D-pano e o LDM3D-SR. Esses modelos permitem a geração de RGBD panorâmico com base em prompts textuais e a ampliação de entradas de baixa resolução para RGBD de alta resolução, respectivamente. Nossos modelos são ajustados a partir de modelos pré-treinados existentes em conjuntos de dados contendo imagens RGB panorâmicas/de alta resolução, mapas de profundidade e legendas. Ambos os modelos são avaliados em comparação com métodos relacionados existentes.
English
Latent diffusion models have proven to be state-of-the-art in the creation
and manipulation of visual outputs. However, as far as we know, the generation
of depth maps jointly with RGB is still limited. We introduce LDM3D-VR, a suite
of diffusion models targeting virtual reality development that includes
LDM3D-pano and LDM3D-SR. These models enable the generation of panoramic RGBD
based on textual prompts and the upscaling of low-resolution inputs to
high-resolution RGBD, respectively. Our models are fine-tuned from existing
pretrained models on datasets containing panoramic/high-resolution RGB images,
depth maps and captions. Both models are evaluated in comparison to existing
related methods.