3D Congealing: 実世界における3D対応画像アライメント
3D Congealing: 3D-Aware Image Alignment in the Wild
April 2, 2024
著者: Yunzhi Zhang, Zizhang Li, Amit Raj, Andreas Engelhardt, Yuanzhen Li, Tingbo Hou, Jiajun Wu, Varun Jampani
cs.AI
要旨
我々は、意味的に類似した物体を捉えた2D画像に対する3D認識アライメントという新たな問題「3D Congealing」を提案する。ラベル付けされていないインターネット画像の集合を入力として、共有される意味的な部分を関連付け、2D画像から得た知識を共有の3D正規空間に集約することを目指す。本手法では、形状テンプレート、ポーズ、あるいはカメラパラメータを仮定せずにこの課題に取り組む一般的なフレームワークを導入する。その中核となるのは、幾何学的および意味的情報を包含する正規3D表現である。このフレームワークは、各入力画像のポーズとともに正規表現を最適化し、形状マッチングを考慮して2Dピクセル座標を3D正規フレームにワープする画像ごとの座標マップを生成する。最適化手順では、事前学習済み画像生成モデルからの事前知識と入力画像からの意味的情報を融合する。前者はこの制約の少ないタスクに対する強力な知識ガイダンスを提供し、後者は事前学習モデルからの訓練データバイアスを軽減するために必要な情報を提供する。本フレームワークは、対応点マッチング、ポーズ推定、画像編集など様々なタスクに使用可能であり、困難な照明条件下での実世界画像データセットや、オンラインのワイルド画像コレクションにおいて強力な結果を達成する。
English
We propose 3D Congealing, a novel problem of 3D-aware alignment for 2D images
capturing semantically similar objects. Given a collection of unlabeled
Internet images, our goal is to associate the shared semantic parts from the
inputs and aggregate the knowledge from 2D images to a shared 3D canonical
space. We introduce a general framework that tackles the task without assuming
shape templates, poses, or any camera parameters. At its core is a canonical 3D
representation that encapsulates geometric and semantic information. The
framework optimizes for the canonical representation together with the pose for
each input image, and a per-image coordinate map that warps 2D pixel
coordinates to the 3D canonical frame to account for the shape matching. The
optimization procedure fuses prior knowledge from a pre-trained image
generative model and semantic information from input images. The former
provides strong knowledge guidance for this under-constraint task, while the
latter provides the necessary information to mitigate the training data bias
from the pre-trained model. Our framework can be used for various tasks such as
correspondence matching, pose estimation, and image editing, achieving strong
results on real-world image datasets under challenging illumination conditions
and on in-the-wild online image collections.Summary
AI-Generated Summary