Somiglianza Visiva Relazionale
Relational Visual Similarity
December 8, 2025
Autori: Thao Nguyen, Sicheng Mo, Krishna Kumar Singh, Yilin Wang, Jing Shi, Nicholas Kolkin, Eli Shechtman, Yong Jae Lee, Yuheng Li
cs.AI
Abstract
Gli esseri umani non percepiscono solo la somiglianza attributiva, ma anche la somiglianza relazionale. Una mela è simile a una pesca perché entrambe sono frutti rossastri, ma anche la Terra è simile a una pesca: la sua crosta, mantello e nucleo corrispondono rispettivamente alla buccia, polpa e nocciolo della pesca. Questa capacità di percepire e riconoscere la somiglianza relazionale viene considerata da molti scienziati cognitivi come ciò che distingue gli esseri umani da altre specie. Tuttavia, tutte le metriche di similarità visiva ampiamente utilizzate oggi (ad esempio LPIPS, CLIP, DINO) si concentrano esclusivamente sulla somiglianza attributiva percettiva e non riescono a catturare le ricche e spesso sorprendenti somiglianze relazionali che gli umani percepiscono. Come possiamo andare oltre il contenuto visibile di un'immagine per catturarne le proprietà relazionali? Come possiamo avvicinare nello spazio di rappresentazione immagini che condividono la stessa logica relazionale? Per rispondere a queste domande, abbiamo prima formulato la similarità relazionale delle immagini come un problema misurabile: due immagini sono relazionalmente simili quando le loro relazioni interne o funzioni tra elementi visivi corrispondono, anche se i loro attributi visivi differiscono. Successivamente, abbiamo curato un dataset di 114k immagini-caption in cui le descrizioni sono anonime, descrivendo la logica relazionale sottostante della scena piuttosto che il suo contenuto superficiale. Utilizzando questo dataset, abbiamo effettuato il fine-tuning di un modello Vision-Language per misurare la similarità relazionale tra le immagini. Questo modello rappresenta il primo passo verso la connessione di immagini in base alla loro struttura relazionale sottostante piuttosto che al loro aspetto visibile. Il nostro studio dimostra che, nonostante la similarità relazionale abbia numerose applicazioni nel mondo reale, i modelli di similarità di immagini esistenti non riescono a catturarla, rivelando un divario critico nell'ambito del computing visivo.
English
Humans do not just see attribute similarity -- we also see relational similarity. An apple is like a peach because both are reddish fruit, but the Earth is also like a peach: its crust, mantle, and core correspond to the peach's skin, flesh, and pit. This ability to perceive and recognize relational similarity, is arguable by cognitive scientist to be what distinguishes humans from other species. Yet, all widely used visual similarity metrics today (e.g., LPIPS, CLIP, DINO) focus solely on perceptual attribute similarity and fail to capture the rich, often surprising relational similarities that humans perceive. How can we go beyond the visible content of an image to capture its relational properties? How can we bring images with the same relational logic closer together in representation space? To answer these questions, we first formulate relational image similarity as a measurable problem: two images are relationally similar when their internal relations or functions among visual elements correspond, even if their visual attributes differ. We then curate 114k image-caption dataset in which the captions are anonymized -- describing the underlying relational logic of the scene rather than its surface content. Using this dataset, we finetune a Vision-Language model to measure the relational similarity between images. This model serves as the first step toward connecting images by their underlying relational structure rather than their visible appearance. Our study shows that while relational similarity has a lot of real-world applications, existing image similarity models fail to capture it -- revealing a critical gap in visual computing.