3D Congealing: 야생 환경에서의 3D 인식 이미지 정렬
3D Congealing: 3D-Aware Image Alignment in the Wild
April 2, 2024
저자: Yunzhi Zhang, Zizhang Li, Amit Raj, Andreas Engelhardt, Yuanzhen Li, Tingbo Hou, Jiajun Wu, Varun Jampani
cs.AI
초록
우리는 의미적으로 유사한 객체를 담은 2D 이미지들에 대한 3D 인식 정렬이라는 새로운 문제인 3D Congealing을 제안한다. 레이블이 없는 인터넷 이미지 컬렉션이 주어졌을 때, 우리의 목표는 입력 이미지들에서 공유된 의미적 부분을 연결하고 2D 이미지들의 지식을 공유된 3D 표준 공간으로 통합하는 것이다. 우리는 형상 템플릿, 포즈, 또는 어떠한 카메라 파라미터도 가정하지 않고 이 작업을 해결하는 일반적인 프레임워크를 소개한다. 이 프레임워크의 핵심은 기하학적 및 의미적 정보를 포함하는 표준 3D 표현이다. 이 프레임워크는 각 입력 이미지에 대한 포즈와 함께 표준 표현을 최적화하며, 형상 매칭을 위해 2D 픽셀 좌표를 3D 표준 프레임으로 변형하는 이미지별 좌표 맵을 사용한다. 최적화 절차는 사전 훈련된 이미지 생성 모델로부터의 사전 지식과 입력 이미지들로부터의 의미적 정보를 융합한다. 전자는 이 제약이 적은 작업에 대한 강력한 지식 지침을 제공하고, 후자는 사전 훈련된 모델의 훈련 데이터 편향을 완화하기 위한 필수 정보를 제공한다. 우리의 프레임워크는 대응점 매칭, 포즈 추정, 이미지 편집과 같은 다양한 작업에 사용될 수 있으며, 어려운 조명 조건에서의 실제 이미지 데이터셋과 온라인 이미지 컬렉션에서 강력한 결과를 달성한다.
English
We propose 3D Congealing, a novel problem of 3D-aware alignment for 2D images
capturing semantically similar objects. Given a collection of unlabeled
Internet images, our goal is to associate the shared semantic parts from the
inputs and aggregate the knowledge from 2D images to a shared 3D canonical
space. We introduce a general framework that tackles the task without assuming
shape templates, poses, or any camera parameters. At its core is a canonical 3D
representation that encapsulates geometric and semantic information. The
framework optimizes for the canonical representation together with the pose for
each input image, and a per-image coordinate map that warps 2D pixel
coordinates to the 3D canonical frame to account for the shape matching. The
optimization procedure fuses prior knowledge from a pre-trained image
generative model and semantic information from input images. The former
provides strong knowledge guidance for this under-constraint task, while the
latter provides the necessary information to mitigate the training data bias
from the pre-trained model. Our framework can be used for various tasks such as
correspondence matching, pose estimation, and image editing, achieving strong
results on real-world image datasets under challenging illumination conditions
and on in-the-wild online image collections.Summary
AI-Generated Summary