MVDiffusion: 대응성 인식 확산 모델을 통한 전체론적 다중 뷰 이미지 생성 가능화
MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion
July 3, 2023
저자: Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, Yasutaka Furukawa
cs.AI
초록
본 논문은 픽셀 간 대응 관계가 제공되는 시나리오, 예를 들어 파노라마 또는 기하학적 정보(깊이 맵과 포즈)가 주어진 다중 시점 이미지에서의 원근적 크롭과 같은 경우에 적용 가능한 간단하면서도 효과적인 다중 시점 이미지 생성 방법인 MVDiffusion을 소개한다. 기존 모델들이 반복적인 이미지 와핑과 인페인팅에 의존하는 것과 달리, MVDiffusion은 전역적 인식을 통해 모든 이미지를 동시에 생성하며, 고해상도와 풍부한 콘텐츠를 포괄하여 선행 모델들에서 흔히 발생하는 오류 누적 문제를 효과적으로 해결한다. MVDiffusion은 특히 대응 관계를 인지하는 어텐션 메커니즘을 도입하여 효과적인 시점 간 상호작용을 가능하게 한다. 이 메커니즘은 세 가지 핵심 모듈을 지원한다: 1) 전역적 대응 관계를 유지하면서 저해상도 이미지를 생성하는 생성 모듈, 2) 이미지 간 공간적 커버리지를 밀도 있게 만드는 보간 모듈, 3) 고해상도 출력으로 업스케일링하는 초해상도 모듈. 파노라마 이미지의 경우, MVDiffusion은 최대 1024×1024 픽셀의 고해상도 포토리얼리스틱 이미지를 생성할 수 있다. 기하학적 조건이 부여된 다중 시점 이미지 생성에서는, MVDiffusion은 장면 메시의 텍스처 맵을 생성할 수 있는 최초의 방법을 보여준다. 프로젝트 페이지는 https://mvdiffusion.github.io에서 확인할 수 있다.
English
This paper introduces MVDiffusion, a simple yet effective multi-view image
generation method for scenarios where pixel-to-pixel correspondences are
available, such as perspective crops from panorama or multi-view images given
geometry (depth maps and poses). Unlike prior models that rely on iterative
image warping and inpainting, MVDiffusion concurrently generates all images
with a global awareness, encompassing high resolution and rich content,
effectively addressing the error accumulation prevalent in preceding models.
MVDiffusion specifically incorporates a correspondence-aware attention
mechanism, enabling effective cross-view interaction. This mechanism underpins
three pivotal modules: 1) a generation module that produces low-resolution
images while maintaining global correspondence, 2) an interpolation module that
densifies spatial coverage between images, and 3) a super-resolution module
that upscales into high-resolution outputs. In terms of panoramic imagery,
MVDiffusion can generate high-resolution photorealistic images up to
1024times1024 pixels. For geometry-conditioned multi-view image generation,
MVDiffusion demonstrates the first method capable of generating a textured map
of a scene mesh. The project page is at https://mvdiffusion.github.io.