멀티뷰 이미지 편집을 위한 주의 특징 통합
Consolidating Attention Features for Multi-view Image Editing
February 22, 2024
저자: Or Patashnik, Rinon Gal, Daniel Cohen-Or, Jun-Yan Zhu, Fernando De la Torre
cs.AI
초록
대규모 텍스트-이미지 모델은 텍스트 프롬프트나 공간적 제어를 통해 다양한 이미지 편집 기법을 가능하게 합니다. 그러나 이러한 편집 방법을 단일 장면을 묘사한 다중 뷰 이미지에 적용하면 3D 일관성이 떨어지는 결과가 발생합니다. 본 연구에서는 공간 제어 기반의 기하학적 조작에 초점을 맞추고, 다양한 뷰에서 편집 프로세스를 통합하는 방법을 소개합니다. 우리는 두 가지 통찰을 바탕으로 접근합니다: (1) 생성 과정 전반에 걸쳐 일관된 특징을 유지하는 것이 다중 뷰 편집의 일관성을 달성하는 데 도움이 되며, (2) 자기 주의(self-attention) 레이어의 쿼리가 이미지 구조에 큰 영향을 미친다는 점입니다. 따라서 우리는 쿼리의 일관성을 강제함으로써 편집된 이미지의 기하학적 일관성을 개선하는 방법을 제안합니다. 이를 위해, 편집된 이미지의 내부 쿼리 특징을 기반으로 학습된 신경 방사 필드(Neural Radiance Field, QNeRF)를 도입합니다. QNeRF는 일단 학습되면 3D 일관성을 가진 쿼리를 렌더링할 수 있으며, 이 쿼리들은 생성 과정 중 자기 주의 레이어에 부드럽게 주입되어 다중 뷰 일관성을 크게 향상시킵니다. 우리는 확산 시간 단계(diffusion timesteps)에 걸쳐 쿼리를 더 잘 통합할 수 있는 점진적, 반복적 방법을 통해 이 프로세스를 개선합니다. 우리는 제안된 방법을 다양한 기존 기술과 비교하고, 더 나은 다중 뷰 일관성과 입력 장면에 대한 높은 충실도를 달성할 수 있음을 입증합니다. 이러한 장점 덕분에 시각적 결함이 적고 목표 기하학과 더 잘 정렬된 NeRF를 학습할 수 있습니다.
English
Large-scale text-to-image models enable a wide range of image editing
techniques, using text prompts or even spatial controls. However, applying
these editing methods to multi-view images depicting a single scene leads to
3D-inconsistent results. In this work, we focus on spatial control-based
geometric manipulations and introduce a method to consolidate the editing
process across various views. We build on two insights: (1) maintaining
consistent features throughout the generative process helps attain consistency
in multi-view editing, and (2) the queries in self-attention layers
significantly influence the image structure. Hence, we propose to improve the
geometric consistency of the edited images by enforcing the consistency of the
queries. To do so, we introduce QNeRF, a neural radiance field trained on the
internal query features of the edited images. Once trained, QNeRF can render
3D-consistent queries, which are then softly injected back into the
self-attention layers during generation, greatly improving multi-view
consistency. We refine the process through a progressive, iterative method that
better consolidates queries across the diffusion timesteps. We compare our
method to a range of existing techniques and demonstrate that it can achieve
better multi-view consistency and higher fidelity to the input scene. These
advantages allow us to train NeRFs with fewer visual artifacts, that are better
aligned with the target geometry.