ChatPaper.aiChatPaper

Similitud Visual Relacional

Relational Visual Similarity

December 8, 2025
Autores: Thao Nguyen, Sicheng Mo, Krishna Kumar Singh, Yilin Wang, Jing Shi, Nicholas Kolkin, Eli Shechtman, Yong Jae Lee, Yuheng Li
cs.AI

Resumen

Los humanos no solo percibimos similitudes de atributos, sino también similitudes relacionales. Una manzana se parece a un melocotón porque ambas son frutas rojizas, pero la Tierra también se parece a un melocotón: su corteza, manto y núcleo se corresponden con la piel, pulpa y hueso del melocotón. Los científicos cognitivos argumentan que esta capacidad para percibir y reconocer similitudes relacionales es lo que distingue a los humanos de otras especies. Sin embargo, todas las métricas de similitud visual ampliamente utilizadas en la actualidad (por ejemplo, LPIPS, CLIP, DINO) se centran únicamente en la similitud perceptiva de atributos y no logran capturar las ricas y a menudo sorprendentes similitudes relacionales que los humanos perciben. ¿Cómo podemos ir más allá del contenido visible de una imagen para capturar sus propiedades relacionales? ¿Cómo podemos acercar en el espacio de representación a imágenes que comparten la misma lógica relacional? Para responder estas preguntas, primero formulamos la similitud relacional de imágenes como un problema medible: dos imágenes son relacionalmente similares cuando sus relaciones internas o funciones entre elementos visuales se corresponden, incluso si sus atributos visuales difieren. Luego, creamos un conjunto de datos de 114 mil imágenes con descripciones en el que los textos están anonimizados, describiendo la lógica relacional subyacente de la escena en lugar de su contenido superficial. Utilizando este conjunto de datos, ajustamos un modelo de visión y lenguaje para medir la similitud relacional entre imágenes. Este modelo representa el primer paso hacia la conexión de imágenes mediante su estructura relacional subyacente en lugar de su apariencia visible. Nuestro estudio demuestra que, si bien la similitud relacional tiene numerosas aplicaciones en el mundo real, los modelos existentes de similitud de imágenes no logran capturarla, revelando una brecha crítica en la computación visual.
English
Humans do not just see attribute similarity -- we also see relational similarity. An apple is like a peach because both are reddish fruit, but the Earth is also like a peach: its crust, mantle, and core correspond to the peach's skin, flesh, and pit. This ability to perceive and recognize relational similarity, is arguable by cognitive scientist to be what distinguishes humans from other species. Yet, all widely used visual similarity metrics today (e.g., LPIPS, CLIP, DINO) focus solely on perceptual attribute similarity and fail to capture the rich, often surprising relational similarities that humans perceive. How can we go beyond the visible content of an image to capture its relational properties? How can we bring images with the same relational logic closer together in representation space? To answer these questions, we first formulate relational image similarity as a measurable problem: two images are relationally similar when their internal relations or functions among visual elements correspond, even if their visual attributes differ. We then curate 114k image-caption dataset in which the captions are anonymized -- describing the underlying relational logic of the scene rather than its surface content. Using this dataset, we finetune a Vision-Language model to measure the relational similarity between images. This model serves as the first step toward connecting images by their underlying relational structure rather than their visible appearance. Our study shows that while relational similarity has a lot of real-world applications, existing image similarity models fail to capture it -- revealing a critical gap in visual computing.
PDF193December 10, 2025