LDM3D-VR: Modelo de Difusión Latente para Realidad Virtual 3D

Resumen

Los modelos de difusión latente han demostrado ser vanguardistas en la creación y manipulación de resultados visuales. Sin embargo, hasta donde sabemos, la generación conjunta de mapas de profundidad con RGB sigue siendo limitada. Presentamos LDM3D-VR, un conjunto de modelos de difusión orientados al desarrollo de realidad virtual que incluye LDM3D-pano y LDM3D-SR. Estos modelos permiten la generación de RGBD panorámico basado en indicaciones textuales y la mejora de entradas de baja resolución a RGBD de alta resolución, respectivamente. Nuestros modelos se ajustan a partir de modelos preentrenados existentes en conjuntos de datos que contienen imágenes RGB panorámicas/de alta resolución, mapas de profundidad y descripciones. Ambos modelos se evalúan en comparación con métodos relacionados existentes.

English

Latent diffusion models have proven to be state-of-the-art in the creation and manipulation of visual outputs. However, as far as we know, the generation of depth maps jointly with RGB is still limited. We introduce LDM3D-VR, a suite of diffusion models targeting virtual reality development that includes LDM3D-pano and LDM3D-SR. These models enable the generation of panoramic RGBD based on textual prompts and the upscaling of low-resolution inputs to high-resolution RGBD, respectively. Our models are fine-tuned from existing pretrained models on datasets containing panoramic/high-resolution RGB images, depth maps and captions. Both models are evaluated in comparison to existing related methods.

LDM3D-VR: Modelo de Difusión Latente para Realidad Virtual 3D

LDM3D-VR: Latent Diffusion Model for 3D VR

Resumen

Support