ChatPaper.aiChatPaper

Congealing 3D: Alinhamento de Imagens 3D-Consciente em Cenários Reais

3D Congealing: 3D-Aware Image Alignment in the Wild

April 2, 2024
Autores: Yunzhi Zhang, Zizhang Li, Amit Raj, Andreas Engelhardt, Yuanzhen Li, Tingbo Hou, Jiajun Wu, Varun Jampani
cs.AI

Resumo

Propomos o Congelamento 3D, um novo problema de alinhamento 3D para imagens 2D que capturam objetos semanticamente semelhantes. Dada uma coleção de imagens da Internet sem rótulos, nosso objetivo é associar as partes semânticas compartilhadas das entradas e agregar o conhecimento das imagens 2D em um espaço canônico 3D compartilhado. Introduzimos um framework geral que aborda a tarefa sem assumir modelos de forma, poses ou qualquer parâmetro de câmera. Em seu núcleo está uma representação canônica 3D que encapsula informações geométricas e semânticas. O framework otimiza a representação canônica juntamente com a pose para cada imagem de entrada e um mapa de coordenadas por imagem que transforma as coordenadas de pixels 2D para o quadro canônico 3D para contabilizar o casamento de formas. O procedimento de otimização funde conhecimento prévio de um modelo generativo de imagens pré-treinado e informações semânticas das imagens de entrada. O primeiro fornece uma forte orientação de conhecimento para essa tarefa sub-restrita, enquanto o último fornece as informações necessárias para mitigar o viés dos dados de treinamento do modelo pré-treinado. Nosso framework pode ser usado para várias tarefas, como correspondência de correspondências, estimativa de pose e edição de imagens, alcançando resultados robustos em conjuntos de dados de imagens do mundo real sob condições desafiadoras de iluminação e em coleções de imagens online capturadas em cenários reais.
English
We propose 3D Congealing, a novel problem of 3D-aware alignment for 2D images capturing semantically similar objects. Given a collection of unlabeled Internet images, our goal is to associate the shared semantic parts from the inputs and aggregate the knowledge from 2D images to a shared 3D canonical space. We introduce a general framework that tackles the task without assuming shape templates, poses, or any camera parameters. At its core is a canonical 3D representation that encapsulates geometric and semantic information. The framework optimizes for the canonical representation together with the pose for each input image, and a per-image coordinate map that warps 2D pixel coordinates to the 3D canonical frame to account for the shape matching. The optimization procedure fuses prior knowledge from a pre-trained image generative model and semantic information from input images. The former provides strong knowledge guidance for this under-constraint task, while the latter provides the necessary information to mitigate the training data bias from the pre-trained model. Our framework can be used for various tasks such as correspondence matching, pose estimation, and image editing, achieving strong results on real-world image datasets under challenging illumination conditions and on in-the-wild online image collections.
PDF101November 26, 2024