교차 모달 주목 주입을 통한 정렬된 새로운 시점 이미지 및 기하학적 합성
Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation
June 13, 2025
저자: Min-Seop Kwak, Junho Kim, Sangdoo Yun, Dongyoon Han, Taekyoung Kim, Seungryong Kim, Jin-Hwa Kim
cs.AI
초록
본 논문에서는 워핑(warping)과 인페인팅(inpainting) 방법론을 통해 정렬된 새로운 시점의 이미지 및 기하학적 구조 생성을 수행하는 확산 기반 프레임워크를 소개한다. 기존의 방법들은 조밀한 포즈 이미지나 특정 도메인 내 시점으로 제한된 포즈 임베딩 생성 모델을 요구했던 반면, 본 방법은 오프더셸(off-the-shelf) 기하학적 예측기를 활용하여 참조 이미지에서 관측된 부분적 기하학적 구조를 예측하고, 새로운 시점 합성을 이미지와 기하학적 구조 모두에 대한 인페인팅 작업으로 공식화한다. 생성된 이미지와 기하학적 구조 간의 정확한 정렬을 보장하기 위해, 교차 모달 어텐션 증류(cross-modal attention distillation)를 제안한다. 이는 이미지 확산 분기에서의 어텐션 맵을 훈련 및 추론 과정에서 병렬 기하학적 확산 분기에 주입하는 방식으로, 다중 작업 접근법을 통해 기하학적으로 강건한 이미지 합성과 명확한 기하학적 예측을 가능하게 한다. 또한, 근접성 기반 메쉬 조건화(proximity-based mesh conditioning)를 도입하여 깊이와 법선 정보를 통합하고, 포인트 클라우드 간 보간을 수행하며 잘못 예측된 기하학적 구조가 생성 과정에 영향을 미치지 않도록 필터링한다. 실험적으로, 본 방법은 다양한 미지의 장면에서 이미지와 기하학적 구조 모두에 대해 고해상도의 외삽적 시점 합성을 달성하고, 보간 설정에서 경쟁력 있는 재구성 품질을 제공하며, 포괄적인 3D 완성을 위해 기하학적으로 정렬된 컬러 포인트 클라우드를 생성한다. 프로젝트 페이지는 https://cvlab-kaist.github.io/MoAI에서 확인할 수 있다.
English
We introduce a diffusion-based framework that performs aligned novel view
image and geometry generation via a warping-and-inpainting methodology. Unlike
prior methods that require dense posed images or pose-embedded generative
models limited to in-domain views, our method leverages off-the-shelf geometry
predictors to predict partial geometries viewed from reference images, and
formulates novel-view synthesis as an inpainting task for both image and
geometry. To ensure accurate alignment between generated images and geometry,
we propose cross-modal attention distillation, where attention maps from the
image diffusion branch are injected into a parallel geometry diffusion branch
during both training and inference. This multi-task approach achieves
synergistic effects, facilitating geometrically robust image synthesis as well
as well-defined geometry prediction. We further introduce proximity-based mesh
conditioning to integrate depth and normal cues, interpolating between point
cloud and filtering erroneously predicted geometry from influencing the
generation process. Empirically, our method achieves high-fidelity
extrapolative view synthesis on both image and geometry across a range of
unseen scenes, delivers competitive reconstruction quality under interpolation
settings, and produces geometrically aligned colored point clouds for
comprehensive 3D completion. Project page is available at
https://cvlab-kaist.github.io/MoAI.