ChatPaper.aiChatPaper

Relationele Visuele Gelijkvormigheid

Relational Visual Similarity

December 8, 2025
Auteurs: Thao Nguyen, Sicheng Mo, Krishna Kumar Singh, Yilin Wang, Jing Shi, Nicholas Kolkin, Eli Shechtman, Yong Jae Lee, Yuheng Li
cs.AI

Samenvatting

Mensen zien niet alleen overeenkomsten in attributen – we zien ook relationele overeenkomsten. Een appel lijkt op een perzik omdat beide roodachtig fruit zijn, maar de aarde lijkt ook op een perzik: de korst, mantel en kern komen overeen met de schil, het vruchtvlees en de pit van de perzik. Dit vermogen om relationele overeenkomsten waar te nemen en te herkennen, wordt door cognitiewetenschappers beschouwd als wat mensen onderscheidt van andere soorten. Toch richten alle veelgebruikte visuele gelijkenismetrics van vandaag (zoals LPIPS, CLIP, DINO) zich uitsluitend op perceptuele attribuutovereenkomsten en slagen ze er niet in de rijke, vaak verrassende relationele overeenkomsten te vangen die mensen waarnemen. Hoe kunnen we verder kijken dan de zichtbare inhoud van een afbeelding om de relationele eigenschappen ervan te vatten? Hoe kunnen we afbeeldingen met dezelfde relationele logica dichter bij elkaar brengen in de representatieruimte? Om deze vragen te beantwoorden, formuleren we eerst relationele beeldgelijkenis als een meetbaar probleem: twee afbeeldingen zijn relationeel vergelijkbaar wanneer hun interne relaties of functies tussen visuele elementen overeenkomen, zelfs als hun visuele attributen verschillen. Vervolgens stellen we een dataset samen van 114k afbeeldingen met bijschriften waarin de bijschriften geanonimiseerd zijn – ze beschrijven de onderliggende relationele logica van de scène in plaats van de oppervlakkige inhoud. Met deze dataset finetunen we een Vision-Language-model om de relationele gelijkenis tussen afbeeldingen te meten. Dit model vormt de eerste stap naar het verbinden van afbeeldingen op basis van hun onderliggende relationele structuur in plaats van hun zichtbare verschijning. Onze studie toont aan dat hoewel relationele gelijkenis veel toepassingen kent in de echte wereld, bestaande beeldgelijkenismodellen deze niet kunnen vatten – wat een kritieke kloof in het visuele computerveld blootlegt.
English
Humans do not just see attribute similarity -- we also see relational similarity. An apple is like a peach because both are reddish fruit, but the Earth is also like a peach: its crust, mantle, and core correspond to the peach's skin, flesh, and pit. This ability to perceive and recognize relational similarity, is arguable by cognitive scientist to be what distinguishes humans from other species. Yet, all widely used visual similarity metrics today (e.g., LPIPS, CLIP, DINO) focus solely on perceptual attribute similarity and fail to capture the rich, often surprising relational similarities that humans perceive. How can we go beyond the visible content of an image to capture its relational properties? How can we bring images with the same relational logic closer together in representation space? To answer these questions, we first formulate relational image similarity as a measurable problem: two images are relationally similar when their internal relations or functions among visual elements correspond, even if their visual attributes differ. We then curate 114k image-caption dataset in which the captions are anonymized -- describing the underlying relational logic of the scene rather than its surface content. Using this dataset, we finetune a Vision-Language model to measure the relational similarity between images. This model serves as the first step toward connecting images by their underlying relational structure rather than their visible appearance. Our study shows that while relational similarity has a lot of real-world applications, existing image similarity models fail to capture it -- revealing a critical gap in visual computing.
PDF193December 10, 2025