LDM3D-VR: Latentes Diffusionsmodell für 3D-VR
LDM3D-VR: Latent Diffusion Model for 3D VR
November 6, 2023
Autoren: Gabriela Ben Melech Stan, Diana Wofk, Estelle Aflalo, Shao-Yen Tseng, Zhipeng Cai, Michael Paulitsch, Vasudev Lal
cs.AI
Zusammenfassung
Latent-Diffusionsmodelle haben sich als State-of-the-Art bei der Erzeugung und Manipulation visueller Ausgaben erwiesen. Allerdings ist, soweit uns bekannt ist, die gemeinsame Generierung von Tiefenkarten mit RGB-Daten nach wie vor begrenzt. Wir stellen LDM3D-VR vor, eine Suite von Diffusionsmodellen, die auf die Entwicklung virtueller Realität abzielt und LDM3D-pano sowie LDM3D-SR umfasst. Diese Modelle ermöglichen die Generierung von panoramischen RGBD-Daten basierend auf textuellen Eingaben und die Hochskalierung von niedrigauflösenden Eingaben zu hochauflösenden RGBD-Daten. Unsere Modelle wurden aus bestehenden vortrainierten Modellen auf Datensätzen feinabgestimmt, die panoramische/hochauflösende RGB-Bilder, Tiefenkarten und Bildbeschreibungen enthalten. Beide Modelle werden im Vergleich zu bestehenden verwandten Methoden evaluiert.
English
Latent diffusion models have proven to be state-of-the-art in the creation
and manipulation of visual outputs. However, as far as we know, the generation
of depth maps jointly with RGB is still limited. We introduce LDM3D-VR, a suite
of diffusion models targeting virtual reality development that includes
LDM3D-pano and LDM3D-SR. These models enable the generation of panoramic RGBD
based on textual prompts and the upscaling of low-resolution inputs to
high-resolution RGBD, respectively. Our models are fine-tuned from existing
pretrained models on datasets containing panoramic/high-resolution RGB images,
depth maps and captions. Both models are evaluated in comparison to existing
related methods.