LDM3D-VR: Modello di Diffusione Latente per la Realtà Virtuale 3D
LDM3D-VR: Latent Diffusion Model for 3D VR
November 6, 2023
Autori: Gabriela Ben Melech Stan, Diana Wofk, Estelle Aflalo, Shao-Yen Tseng, Zhipeng Cai, Michael Paulitsch, Vasudev Lal
cs.AI
Abstract
I modelli di diffusione latente si sono dimostrati all'avanguardia nella creazione e manipolazione di output visivi. Tuttavia, per quanto ne sappiamo, la generazione congiunta di mappe di profondità e immagini RGB è ancora limitata. Introduciamo LDM3D-VR, una suite di modelli di diffusione orientati allo sviluppo della realtà virtuale che include LDM3D-pano e LDM3D-SR. Questi modelli consentono rispettivamente la generazione di immagini RGBD panoramiche basate su prompt testuali e l'upscaling di input a bassa risoluzione in RGBD ad alta risoluzione. I nostri modelli sono affinati a partire da modelli pre-addestrati esistenti su dataset contenenti immagini RGB panoramiche/ad alta risoluzione, mappe di profondità e didascalie. Entrambi i modelli vengono valutati in confronto a metodi correlati esistenti.
English
Latent diffusion models have proven to be state-of-the-art in the creation
and manipulation of visual outputs. However, as far as we know, the generation
of depth maps jointly with RGB is still limited. We introduce LDM3D-VR, a suite
of diffusion models targeting virtual reality development that includes
LDM3D-pano and LDM3D-SR. These models enable the generation of panoramic RGBD
based on textual prompts and the upscaling of low-resolution inputs to
high-resolution RGBD, respectively. Our models are fine-tuned from existing
pretrained models on datasets containing panoramic/high-resolution RGB images,
depth maps and captions. Both models are evaluated in comparison to existing
related methods.