Relationale visuelle Ähnlichkeit
Relational Visual Similarity
December 8, 2025
papers.authors: Thao Nguyen, Sicheng Mo, Krishna Kumar Singh, Yilin Wang, Jing Shi, Nicholas Kolkin, Eli Shechtman, Yong Jae Lee, Yuheng Li
cs.AI
papers.abstract
Menschen erkennen nicht nur Ähnlichkeiten von Attributen – wir sehen auch relationale Ähnlichkeiten. Ein Apfel ist wie ein Pfirsich, weil beide rötliche Früchte sind, aber die Erde ist auch wie ein Pfirsich: Ihre Kruste, ihr Mantel und ihr Kern entsprechen der Haut, dem Fruchtfleisch und dem Stein des Pfirsichs. Kognitionswissenschaftler argumentieren, dass genau diese Fähigkeit, relationale Ähnlichkeit wahrzunehmen und zu erkennen, den Menschen von anderen Arten unterscheidet. Dennoch konzentrieren sich alle heute weit verbreiteten visuellen Ähnlichkeitsmetriken (z.B. LPIPS, CLIP, DINO) ausschließlich auf perzeptuelle Attributähnlichkeit und erfassen nicht die reichen, oft überraschenden relationalen Ähnlichkeiten, die Menschen wahrnehmen. Wie können wir über den sichtbaren Inhalt eines Bildes hinausgehen, um seine relationalen Eigenschaften zu erfassen? Wie können wir Bilder mit derselben relationalen Logik im Repräsentationsraum näher zusammenbringen? Um diese Fragen zu beantworten, formulieren wir zunächst relationale Bildähnlichkeit als ein messbares Problem: Zwei Bilder sind relational ähnlich, wenn ihre internen Relationen oder Funktionen zwischen visuellen Elementen übereinstimmen, selbst wenn sich ihre visuellen Attribute unterscheiden. Anschließend erstellen wir einen kuratierten Datensatz mit 114.000 Bild-Beschreibung-Paaren, in dem die Beschreibungen anonymisiert sind – sie beschreiben die zugrundeliegende relationale Logik der Szene und nicht ihren oberflächlichen Inhalt. Mithilfe dieses Datensatzes feintunen wir ein Vision-Language-Modell, um die relationale Ähnlichkeit zwischen Bildern zu messen. Dieses Modell stellt einen ersten Schritt dar, um Bilder über ihre zugrundeliegende relationale Struktur und nicht über ihr sichtbares Erscheinungsbild zu verbinden. Unsere Studie zeigt, dass relationale Ähnlichkeit zwar viele praktische Anwendungen hat, bestehende Bildähnlichkeitsmodelle sie jedoch nicht erfassen – was eine kritische Lücke in der visuellen Datenverarbeitung aufdeckt.
English
Humans do not just see attribute similarity -- we also see relational similarity. An apple is like a peach because both are reddish fruit, but the Earth is also like a peach: its crust, mantle, and core correspond to the peach's skin, flesh, and pit. This ability to perceive and recognize relational similarity, is arguable by cognitive scientist to be what distinguishes humans from other species. Yet, all widely used visual similarity metrics today (e.g., LPIPS, CLIP, DINO) focus solely on perceptual attribute similarity and fail to capture the rich, often surprising relational similarities that humans perceive. How can we go beyond the visible content of an image to capture its relational properties? How can we bring images with the same relational logic closer together in representation space? To answer these questions, we first formulate relational image similarity as a measurable problem: two images are relationally similar when their internal relations or functions among visual elements correspond, even if their visual attributes differ. We then curate 114k image-caption dataset in which the captions are anonymized -- describing the underlying relational logic of the scene rather than its surface content. Using this dataset, we finetune a Vision-Language model to measure the relational similarity between images. This model serves as the first step toward connecting images by their underlying relational structure rather than their visible appearance. Our study shows that while relational similarity has a lot of real-world applications, existing image similarity models fail to capture it -- revealing a critical gap in visual computing.