LDM3D-VR : Modèle de diffusion latente pour la réalité virtuelle 3D
LDM3D-VR: Latent Diffusion Model for 3D VR
November 6, 2023
Auteurs: Gabriela Ben Melech Stan, Diana Wofk, Estelle Aflalo, Shao-Yen Tseng, Zhipeng Cai, Michael Paulitsch, Vasudev Lal
cs.AI
Résumé
Les modèles de diffusion latente se sont avérés être à la pointe de la création et de la manipulation de sorties visuelles. Cependant, à notre connaissance, la génération conjointe de cartes de profondeur avec des images RVB reste limitée. Nous présentons LDM3D-VR, une suite de modèles de diffusion dédiés au développement de la réalité virtuelle, comprenant LDM3D-pano et LDM3D-SR. Ces modèles permettent respectivement la génération de panoramiques RVBD à partir de prompts textuels et le suréchantillonnage d'entrées à basse résolution en RVBD haute résolution. Nos modèles sont affinés à partir de modèles pré-entraînés existants sur des ensembles de données contenant des images RVB panoramiques/haute résolution, des cartes de profondeur et des légendes. Les deux modèles sont évalués en comparaison avec les méthodes connexes existantes.
English
Latent diffusion models have proven to be state-of-the-art in the creation
and manipulation of visual outputs. However, as far as we know, the generation
of depth maps jointly with RGB is still limited. We introduce LDM3D-VR, a suite
of diffusion models targeting virtual reality development that includes
LDM3D-pano and LDM3D-SR. These models enable the generation of panoramic RGBD
based on textual prompts and the upscaling of low-resolution inputs to
high-resolution RGBD, respectively. Our models are fine-tuned from existing
pretrained models on datasets containing panoramic/high-resolution RGB images,
depth maps and captions. Both models are evaluated in comparison to existing
related methods.