A Geometria Importa: Priores Fundamentais 3D para Aprendizagem de Correspondência Semântica

Resumo

Características de modelos fundamentais de visão autossupervisionados e modelos de difusão texto-imagem têm se mostrado eficazes para a estimativa de correspondência semântica. No entanto, como essas características são aprendidas principalmente a partir de objetivos de imagem 2D, elas carecem de consciência 3D explícita e frequentemente confundem lados simétricos de objetos, partes repetidas e estruturas visualmente semelhantes que são distintas em 3D. Apresentamos uma estrutura de pós-treinamento consciente de 3D que vai além das características fundamentais 2D disponíveis ao incorporar priores de modelos fundamentais 3D. Dada uma imagem, nosso método utiliza SAM3D para estimar a geometria e a pose do objeto, e refina a pose por meio de otimização de renderização e comparação. Subsequentemente, renderizamos descritores PartField a partir da geometria reconstruída no plano da imagem com base na pose estimada do objeto. Os mapas de características resultantes, conscientes da geometria, complementam as características do DINO e do Stable Diffusion, enquanto distâncias geodésicas nas formas reconstruídas permitem a filtragem confiável de correspondências candidatas. Usamos as correspondências filtradas como supervisão para treinar um adaptador leve sobre o DINO e o Stable Diffusion para correspondência semântica. Em contraste com abordagens anteriores de pós-treinamento que exigem anotações de pose e dependem de geometria esférica grosseira, nosso método obtém automaticamente uma estrutura 3D específica da instância e a utiliza para guiar o aprendizado de correspondências. Experimentos mostram que nossa abordagem melhora a correspondência semântica em relação aos métodos anteriores, ao mesmo tempo que reduz a supervisão geométrica manual. O código e o modelo podem ser encontrados em https://github.com/GenIntel/3D-SC.

English

Foundation features from self-supervised vision models and text-to-image diffusion models have proven effective for semantic correspondence estimation. However, because these features are learned primarily from 2D image objectives, they lack explicit 3D awareness and often confuse symmetric object sides, repeated parts, and visually similar structures that are distinct in 3D. We introduce a 3D-aware post-training framework that goes beyond available 2D foundation features by incorporating priors from 3D foundation models. Given an image, our method uses SAM3D to estimate object geometry and pose, and refines the pose through render-and-compare optimization. Subsequently, we render PartField descriptors from the reconstructed geometry into the image plane based on the estimated object pose. The resulting geometry-aware feature maps complement DINO and Stable Diffusion features, while geodesic distances on the reconstructed shapes enable reliable filtering of candidate correspondences. We use the filtered matches as supervision to train a lightweight adapter on top of DINO and Stable Diffusion for semantic correspondence. In contrast to prior post-training approaches that require pose annotations and rely on coarse spherical geometry, our method automatically obtains instance-specific 3D structure and uses it to guide correspondence learning. Experiments show that our approach improves semantic correspondence over the prior methods while reducing manual geometric supervision. Code and model can be found at https:/github.com/GenIntel/3D-SC.