LDM3D: 3D를 위한 잠재 확산 모델
LDM3D: Latent Diffusion Model for 3D
May 18, 2023
저자: Gabriela Ben Melech Stan, Diana Wofk, Scottie Fox, Alex Redden, Will Saxton, Jean Yu, Estelle Aflalo, Shao-Yen Tseng, Fabio Nonato, Matthias Muller, Vasudev Lal
cs.AI
초록
본 연구 논문은 주어진 텍스트 프롬프트에서 이미지와 깊이 맵 데이터를 모두 생성하는 3D 잠재 확산 모델(Latent Diffusion Model for 3D, LDM3D)을 제안하며, 이를 통해 사용자가 텍스트 프롬프트로부터 RGBD 이미지를 생성할 수 있도록 합니다. LDM3D 모델은 RGB 이미지, 깊이 맵, 캡션으로 구성된 튜플 데이터셋에 대해 미세 조정되었으며, 광범위한 실험을 통해 검증되었습니다. 또한, 생성된 RGB 이미지와 깊이 맵을 활용하여 TouchDesigner를 사용한 몰입적이고 상호작용 가능한 360도 뷰 경험을 생성하는 DepthFusion이라는 애플리케이션을 개발했습니다. 이 기술은 엔터테인먼트와 게임부터 건축 및 디자인에 이르기까지 다양한 산업 분야를 혁신할 잠재력을 가지고 있습니다. 전반적으로, 이 논문은 생성 AI 및 컴퓨터 비전 분야에 중요한 기여를 하며, LDM3D와 DepthFusion이 콘텐츠 제작과 디지털 경험을 혁신할 가능성을 보여줍니다. 해당 접근법을 요약한 짧은 동영상은 https://t.ly/tdi2에서 확인할 수 있습니다.
English
This research paper proposes a Latent Diffusion Model for 3D (LDM3D) that
generates both image and depth map data from a given text prompt, allowing
users to generate RGBD images from text prompts. The LDM3D model is fine-tuned
on a dataset of tuples containing an RGB image, depth map and caption, and
validated through extensive experiments. We also develop an application called
DepthFusion, which uses the generated RGB images and depth maps to create
immersive and interactive 360-degree-view experiences using TouchDesigner. This
technology has the potential to transform a wide range of industries, from
entertainment and gaming to architecture and design. Overall, this paper
presents a significant contribution to the field of generative AI and computer
vision, and showcases the potential of LDM3D and DepthFusion to revolutionize
content creation and digital experiences. A short video summarizing the
approach can be found at https://t.ly/tdi2.