ChatPaper.aiChatPaper

LDM3D-VR: 3D VR을 위한 잠재 확산 모델

LDM3D-VR: Latent Diffusion Model for 3D VR

November 6, 2023
저자: Gabriela Ben Melech Stan, Diana Wofk, Estelle Aflalo, Shao-Yen Tseng, Zhipeng Cai, Michael Paulitsch, Vasudev Lal
cs.AI

초록

잠재 확산 모델(Latent Diffusion Models)은 시각적 출력물의 생성 및 조작 분야에서 최첨단 기술로 입증되어 왔다. 그러나 우리가 아는 한, RGB와 함께 깊이 맵(depth map)을 동시에 생성하는 기술은 여전히 제한적이다. 본 연구에서는 가상 현실 개발을 목표로 한 확산 모델 제품군인 LDM3D-VR을 소개한다. 이 제품군은 LDM3D-pano와 LDM3D-SR을 포함하며, 각각 텍스트 프롬프트를 기반으로 파노라믹 RGBD를 생성하고 저해상도 입력을 고해상도 RGBD로 업스케일링하는 기능을 제공한다. 우리의 모델은 파노라믹/고해상도 RGB 이미지, 깊이 맵, 캡션을 포함한 데이터셋에서 사전 훈련된 기존 모델을 미세 조정하여 개발되었다. 두 모델 모두 기존 관련 방법들과 비교하여 평가되었다.
English
Latent diffusion models have proven to be state-of-the-art in the creation and manipulation of visual outputs. However, as far as we know, the generation of depth maps jointly with RGB is still limited. We introduce LDM3D-VR, a suite of diffusion models targeting virtual reality development that includes LDM3D-pano and LDM3D-SR. These models enable the generation of panoramic RGBD based on textual prompts and the upscaling of low-resolution inputs to high-resolution RGBD, respectively. Our models are fine-tuned from existing pretrained models on datasets containing panoramic/high-resolution RGB images, depth maps and captions. Both models are evaluated in comparison to existing related methods.
PDF111December 15, 2024