ChatPaper.aiChatPaper

MVDiffusion: 대응성 인식 확산 모델을 통한 전체론적 다중 뷰 이미지 생성 가능화

MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion

July 3, 2023
저자: Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, Yasutaka Furukawa
cs.AI

초록

본 논문은 픽셀 간 대응 관계가 제공되는 시나리오, 예를 들어 파노라마 또는 기하학적 정보(깊이 맵과 포즈)가 주어진 다중 시점 이미지에서의 원근적 크롭과 같은 경우에 적용 가능한 간단하면서도 효과적인 다중 시점 이미지 생성 방법인 MVDiffusion을 소개한다. 기존 모델들이 반복적인 이미지 와핑과 인페인팅에 의존하는 것과 달리, MVDiffusion은 전역적 인식을 통해 모든 이미지를 동시에 생성하며, 고해상도와 풍부한 콘텐츠를 포괄하여 선행 모델들에서 흔히 발생하는 오류 누적 문제를 효과적으로 해결한다. MVDiffusion은 특히 대응 관계를 인지하는 어텐션 메커니즘을 도입하여 효과적인 시점 간 상호작용을 가능하게 한다. 이 메커니즘은 세 가지 핵심 모듈을 지원한다: 1) 전역적 대응 관계를 유지하면서 저해상도 이미지를 생성하는 생성 모듈, 2) 이미지 간 공간적 커버리지를 밀도 있게 만드는 보간 모듈, 3) 고해상도 출력으로 업스케일링하는 초해상도 모듈. 파노라마 이미지의 경우, MVDiffusion은 최대 1024×1024 픽셀의 고해상도 포토리얼리스틱 이미지를 생성할 수 있다. 기하학적 조건이 부여된 다중 시점 이미지 생성에서는, MVDiffusion은 장면 메시의 텍스처 맵을 생성할 수 있는 최초의 방법을 보여준다. 프로젝트 페이지는 https://mvdiffusion.github.io에서 확인할 수 있다.
English
This paper introduces MVDiffusion, a simple yet effective multi-view image generation method for scenarios where pixel-to-pixel correspondences are available, such as perspective crops from panorama or multi-view images given geometry (depth maps and poses). Unlike prior models that rely on iterative image warping and inpainting, MVDiffusion concurrently generates all images with a global awareness, encompassing high resolution and rich content, effectively addressing the error accumulation prevalent in preceding models. MVDiffusion specifically incorporates a correspondence-aware attention mechanism, enabling effective cross-view interaction. This mechanism underpins three pivotal modules: 1) a generation module that produces low-resolution images while maintaining global correspondence, 2) an interpolation module that densifies spatial coverage between images, and 3) a super-resolution module that upscales into high-resolution outputs. In terms of panoramic imagery, MVDiffusion can generate high-resolution photorealistic images up to 1024times1024 pixels. For geometry-conditioned multi-view image generation, MVDiffusion demonstrates the first method capable of generating a textured map of a scene mesh. The project page is at https://mvdiffusion.github.io.
PDF100December 15, 2024