LDM3D-VR: Латентная диффузионная модель для 3D VR
LDM3D-VR: Latent Diffusion Model for 3D VR
November 6, 2023
Авторы: Gabriela Ben Melech Stan, Diana Wofk, Estelle Aflalo, Shao-Yen Tseng, Zhipeng Cai, Michael Paulitsch, Vasudev Lal
cs.AI
Аннотация
Латентные диффузионные модели доказали свою эффективность как передовой метод в создании и манипуляции визуальными данными. Однако, насколько нам известно, совместная генерация карт глубины и RGB-изображений до сих пор остается ограниченной. Мы представляем LDM3D-VR — набор диффузионных моделей, ориентированных на разработку виртуальной реальности, который включает LDM3D-pano и LDM3D-SR. Эти модели позволяют генерировать панорамные RGBD-изображения на основе текстовых запросов и повышать разрешение низкокачественных входных данных до высококачественных RGBD-изображений соответственно. Наши модели дообучены на основе существующих предобученных моделей с использованием наборов данных, содержащих панорамные/высококачественные RGB-изображения, карты глубины и текстовые описания. Обе модели оцениваются в сравнении с существующими родственными методами.
English
Latent diffusion models have proven to be state-of-the-art in the creation
and manipulation of visual outputs. However, as far as we know, the generation
of depth maps jointly with RGB is still limited. We introduce LDM3D-VR, a suite
of diffusion models targeting virtual reality development that includes
LDM3D-pano and LDM3D-SR. These models enable the generation of panoramic RGBD
based on textual prompts and the upscaling of low-resolution inputs to
high-resolution RGBD, respectively. Our models are fine-tuned from existing
pretrained models on datasets containing panoramic/high-resolution RGB images,
depth maps and captions. Both models are evaluated in comparison to existing
related methods.