ChatPaper.aiChatPaper

Similarité Visuelle Relationnelle

Relational Visual Similarity

December 8, 2025
papers.authors: Thao Nguyen, Sicheng Mo, Krishna Kumar Singh, Yilin Wang, Jing Shi, Nicholas Kolkin, Eli Shechtman, Yong Jae Lee, Yuheng Li
cs.AI

papers.abstract

Les humains ne perçoivent pas seulement la similarité attributive – ils perçoivent également la similarité relationnelle. Une pomme est semblable à une pêche parce que ce sont toutes deux des fruits rougeâtres, mais la Terre est aussi semblable à une pêche : sa croûte, son manteau et son noyau correspondent à la peau, la chair et le noyau de la pêche. Cette capacité à percevoir et reconnaître la similarité relationnelle est considérée par les scientifiques cognitifs comme ce qui distingue les humains des autres espèces. Pourtant, toutes les métriques de similarité visuelle largement utilisées aujourd'hui (par exemple, LPIPS, CLIP, DINO) se concentrent uniquement sur la similarité attributive perceptuelle et ne parviennent pas à capturer les riches similarités relationnelles, souvent surprenantes, que les humains perçoivent. Comment pouvons-nous dépasser le contenu visible d'une image pour capturer ses propriétés relationnelles ? Comment pouvons-nous rapprocher dans l'espace de représentation des images partageant la même logique relationnelle ? Pour répondre à ces questions, nous formulons d'abord la similarité relationnelle des images comme un problème mesurable : deux images sont relationnellement similaires lorsque leurs relations internes ou fonctions entre les éléments visuels correspondent, même si leurs attributs visuels diffèrent. Nous avons ensuite constitué un jeu de données de 114 000 images-légendes dans lequel les légendes sont anonymisées – décrivant la logique relationnelle sous-jacente de la scène plutôt que son contenu de surface. En utilisant ce jeu de données, nous affinons un modèle vision-langage pour mesurer la similarité relationnelle entre les images. Ce modèle constitue une première étape vers la connexion d'images par leur structure relationnelle sous-jacente plutôt que par leur apparence visible. Notre étude montre que si la similarité relationnelle a de nombreuses applications dans le monde réel, les modèles de similarité d'images existants échouent à la capturer – révélant ainsi une lacune critique dans l'informatique visuelle.
English
Humans do not just see attribute similarity -- we also see relational similarity. An apple is like a peach because both are reddish fruit, but the Earth is also like a peach: its crust, mantle, and core correspond to the peach's skin, flesh, and pit. This ability to perceive and recognize relational similarity, is arguable by cognitive scientist to be what distinguishes humans from other species. Yet, all widely used visual similarity metrics today (e.g., LPIPS, CLIP, DINO) focus solely on perceptual attribute similarity and fail to capture the rich, often surprising relational similarities that humans perceive. How can we go beyond the visible content of an image to capture its relational properties? How can we bring images with the same relational logic closer together in representation space? To answer these questions, we first formulate relational image similarity as a measurable problem: two images are relationally similar when their internal relations or functions among visual elements correspond, even if their visual attributes differ. We then curate 114k image-caption dataset in which the captions are anonymized -- describing the underlying relational logic of the scene rather than its surface content. Using this dataset, we finetune a Vision-Language model to measure the relational similarity between images. This model serves as the first step toward connecting images by their underlying relational structure rather than their visible appearance. Our study shows that while relational similarity has a lot of real-world applications, existing image similarity models fail to capture it -- revealing a critical gap in visual computing.
PDF193December 10, 2025