Semelhança Visual Relacional
Relational Visual Similarity
December 8, 2025
Autores: Thao Nguyen, Sicheng Mo, Krishna Kumar Singh, Yilin Wang, Jing Shi, Nicholas Kolkin, Eli Shechtman, Yong Jae Lee, Yuheng Li
cs.AI
Resumo
Os seres humanos não veem apenas semelhanças de atributos — também percebem semelhanças relacionais. Uma maçã é semelhante a um pêssego porque ambas são frutas avermelhadas, mas a Terra também se assemelha a um pêssego: sua crosta, manto e núcleo correspondem à pele, polpa e caroço do pêssego. Esta capacidade de perceber e reconhecer semelhanças relacionais é considerada por cientistas cognitivos como o que distingue os humanos de outras espécies. No entanto, todas as métricas de similaridade visual amplamente utilizadas atualmente (por exemplo, LPIPS, CLIP, DINO) concentram-se apenas na similaridade de atributos perceptuais e não conseguem capturar as ricas e frequentemente surpreendentes semelhanças relacionais que os humanos percebem. Como podemos ir além do conteúdo visível de uma imagem para capturar suas propriedades relacionais? Como podemos aproximar, no espaço de representação, imagens com a mesma lógica relacional? Para responder a estas questões, primeiro formulamos a similaridade relacional de imagens como um problema mensurável: duas imagens são relationalmente semelhantes quando suas relações internas ou funções entre os elementos visuais correspondem, mesmo que seus atributos visuais difiram. Em seguida, reunimos um conjunto de dados de 114 mil imagens com legendas anonimizadas — descrevendo a lógica relacional subjacente da cena em vez de seu conteúdo superficial. Usando este conjunto de dados, afinamos um modelo de Visão e Linguagem para medir a similaridade relacional entre imagens. Este modelo serve como um primeiro passo para conectar imagens pela sua estrutura relacional subjacente, e não pela sua aparência visível. Nosso estudo mostra que, embora a similaridade relacional tenha muitas aplicações no mundo real, os modelos existentes de similaridade de imagem não a capturam — revelando uma lacuna crítica na computação visual.
English
Humans do not just see attribute similarity -- we also see relational similarity. An apple is like a peach because both are reddish fruit, but the Earth is also like a peach: its crust, mantle, and core correspond to the peach's skin, flesh, and pit. This ability to perceive and recognize relational similarity, is arguable by cognitive scientist to be what distinguishes humans from other species. Yet, all widely used visual similarity metrics today (e.g., LPIPS, CLIP, DINO) focus solely on perceptual attribute similarity and fail to capture the rich, often surprising relational similarities that humans perceive. How can we go beyond the visible content of an image to capture its relational properties? How can we bring images with the same relational logic closer together in representation space? To answer these questions, we first formulate relational image similarity as a measurable problem: two images are relationally similar when their internal relations or functions among visual elements correspond, even if their visual attributes differ. We then curate 114k image-caption dataset in which the captions are anonymized -- describing the underlying relational logic of the scene rather than its surface content. Using this dataset, we finetune a Vision-Language model to measure the relational similarity between images. This model serves as the first step toward connecting images by their underlying relational structure rather than their visible appearance. Our study shows that while relational similarity has a lot of real-world applications, existing image similarity models fail to capture it -- revealing a critical gap in visual computing.