MVInpainter: 2D와 3D 편집을 연결하기 위해 다중 뷰 일관성 보충을 학습하는 것
MVInpainter: Learning Multi-View Consistent Inpainting to Bridge 2D and 3D Editing
August 15, 2024
저자: Chenjie Cao, Chaohui Yu, Yanwei Fu, Fan Wang, Xiangyang Xue
cs.AI
초록
최근에는 새로운 시각 합성(Novel View Synthesis, NVS) 및 3D 생성 기술이 상당한 발전을 이루었습니다. 그러나 이러한 연구들은 주로 특정 범주나 합성 3D 자산에 초점을 맞추었으며, 일반적으로 어려운 현장에 대한 일반화가 어려워지고 2D 합성과 직접적으로 적용되기 어렵다는 한계가 있습니다. 더욱이 이러한 방법들은 카메라 위치에 크게 의존하여 실제 세계 응용에 제약을 가하고 있습니다. 이러한 문제를 극복하기 위해, 우리는 MVInpainter를 제안합니다. MVInpainter는 3D 편집을 다시 정의하여 다중 뷰 2D inpainting 작업으로 전환합니다. 구체적으로 MVInpainter는 완전히 새로운 뷰를 생성하는 대신 참조 안내에 따라 다중 뷰 이미지를 부분적으로 inpainting하여 어려운 현장에 대한 NVS의 난이도를 크게 간소화하고 명시적인 포즈 조건 대신 미마스크된 단서를 활용합니다. 교차 뷰 일관성을 보장하기 위해 MVInpainter는 동영상 구성 요소로부터 비디오 사전 및 연결된 참조 키 및 값 주의로부터 외관 안내를 강화합니다. 더 나아가 MVInpainter는 슬롯 어텐션을 통합하여 미마스크된 영역에서 고수준의 광학 흐름 특성을 집계하여 포즈에 자유로운 훈련 및 추론을 통해 카메라 이동을 제어합니다. 객체 중심 및 전방 데이터셋에서의 충분한 씬 수준 실험을 통해 MVInpainter의 효과를 검증하였으며, 다중 뷰 객체 제거, 합성, 삽입 및 교체와 같은 다양한 작업을 포함합니다. 프로젝트 페이지는 https://ewrfcas.github.io/MVInpainter/ 에서 확인하실 수 있습니다.
English
Novel View Synthesis (NVS) and 3D generation have recently achieved prominent
improvements. However, these works mainly focus on confined categories or
synthetic 3D assets, which are discouraged from generalizing to challenging
in-the-wild scenes and fail to be employed with 2D synthesis directly.
Moreover, these methods heavily depended on camera poses, limiting their
real-world applications. To overcome these issues, we propose MVInpainter,
re-formulating the 3D editing as a multi-view 2D inpainting task. Specifically,
MVInpainter partially inpaints multi-view images with the reference guidance
rather than intractably generating an entirely novel view from scratch, which
largely simplifies the difficulty of in-the-wild NVS and leverages unmasked
clues instead of explicit pose conditions. To ensure cross-view consistency,
MVInpainter is enhanced by video priors from motion components and appearance
guidance from concatenated reference key&value attention. Furthermore,
MVInpainter incorporates slot attention to aggregate high-level optical flow
features from unmasked regions to control the camera movement with pose-free
training and inference. Sufficient scene-level experiments on both
object-centric and forward-facing datasets verify the effectiveness of
MVInpainter, including diverse tasks, such as multi-view object removal,
synthesis, insertion, and replacement. The project page is
https://ewrfcas.github.io/MVInpainter/.Summary
AI-Generated Summary