CAT3D: 멀티뷰 디퓨전 모델로 3D에서 무엇이든 생성하기
CAT3D: Create Anything in 3D with Multi-View Diffusion Models
May 16, 2024
저자: Ruiqi Gao, Aleksander Holynski, Philipp Henzler, Arthur Brussee, Ricardo Martin-Brualla, Pratul Srinivasan, Jonathan T. Barron, Ben Poole
cs.AI
초록
3D 재구성 기술의 발전으로 고품질 3D 캡처가 가능해졌지만, 3D 장면을 생성하기 위해서는 사용자가 수백에서 수천 장의 이미지를 수집해야 합니다. 우리는 이러한 실제 캡처 과정을 다중 뷰 확산 모델로 시뮬레이션하여 3D로 무엇이든 생성할 수 있는 CAT3D 방법을 제안합니다. 임의의 수의 입력 이미지와 일련의 새로운 시점이 주어지면, 우리의 모델은 장면의 높은 일관성을 가진 새로운 뷰를 생성합니다. 이러한 생성된 뷰는 강력한 3D 재구성 기술의 입력으로 사용되어 실시간으로 어떤 시점에서든 렌더링할 수 있는 3D 표현을 생성할 수 있습니다. CAT3D는 단 1분 만에 전체 3D 장면을 생성할 수 있으며, 단일 이미지 및 소수의 뷰를 기반으로 한 3D 장면 생성 기존 방법들을 능가합니다. 결과 및 인터랙티브 데모는 프로젝트 페이지(https://cat3d.github.io)에서 확인할 수 있습니다.
English
Advances in 3D reconstruction have enabled high-quality 3D capture, but
require a user to collect hundreds to thousands of images to create a 3D scene.
We present CAT3D, a method for creating anything in 3D by simulating this
real-world capture process with a multi-view diffusion model. Given any number
of input images and a set of target novel viewpoints, our model generates
highly consistent novel views of a scene. These generated views can be used as
input to robust 3D reconstruction techniques to produce 3D representations that
can be rendered from any viewpoint in real-time. CAT3D can create entire 3D
scenes in as little as one minute, and outperforms existing methods for single
image and few-view 3D scene creation. See our project page for results and
interactive demos at https://cat3d.github.io .