ChatPaper.aiChatPaper

3D Конгелирование: Выравнивание изображений с учетом 3D в естественных условиях

3D Congealing: 3D-Aware Image Alignment in the Wild

April 2, 2024
Авторы: Yunzhi Zhang, Zizhang Li, Amit Raj, Andreas Engelhardt, Yuanzhen Li, Tingbo Hou, Jiajun Wu, Varun Jampani
cs.AI

Аннотация

Мы предлагаем 3D Congealing, новую задачу 3D-осознанного выравнивания для 2D изображений, захватывающих семантически похожие объекты. Учитывая коллекцию неразмеченных изображений из Интернета, нашей целью является ассоциирование общих семантических частей из входных данных и агрегация знаний из 2D изображений в общее 3D каноническое пространство. Мы представляем общую структуру, которая решает задачу, не предполагая формы шаблонов, поз или каких-либо параметров камеры. В ее основе лежит каноническое 3D представление, которое включает геометрическую и семантическую информацию. Структура оптимизирует каноническое представление вместе с позой для каждого входного изображения и картой координат для каждого изображения, которая искажает 2D пиксельные координаты в 3D каноническую систему для учета соответствия формы. Процедура оптимизации объединяет предварительные знания из предварительно обученной модели генерации изображений и семантическую информацию из входных изображений. Первое обеспечивает сильное руководство знаниями для этой недоопределенной задачи, в то время как второе предоставляет необходимую информацию для смягчения предвзятости обучающих данных от предварительно обученной модели. Наша структура может использоваться для различных задач, таких как соответствие, оценка позы и редактирование изображений, достигая отличных результатов на реальных наборах изображений в условиях сложного освещения и в дикой сети онлайн-коллекций изображений.
English
We propose 3D Congealing, a novel problem of 3D-aware alignment for 2D images capturing semantically similar objects. Given a collection of unlabeled Internet images, our goal is to associate the shared semantic parts from the inputs and aggregate the knowledge from 2D images to a shared 3D canonical space. We introduce a general framework that tackles the task without assuming shape templates, poses, or any camera parameters. At its core is a canonical 3D representation that encapsulates geometric and semantic information. The framework optimizes for the canonical representation together with the pose for each input image, and a per-image coordinate map that warps 2D pixel coordinates to the 3D canonical frame to account for the shape matching. The optimization procedure fuses prior knowledge from a pre-trained image generative model and semantic information from input images. The former provides strong knowledge guidance for this under-constraint task, while the latter provides the necessary information to mitigate the training data bias from the pre-trained model. Our framework can be used for various tasks such as correspondence matching, pose estimation, and image editing, achieving strong results on real-world image datasets under challenging illumination conditions and on in-the-wild online image collections.

Summary

AI-Generated Summary

PDF101November 26, 2024