ChatPaper.aiChatPaper

관계적 시각 유사성

Relational Visual Similarity

December 8, 2025
저자: Thao Nguyen, Sicheng Mo, Krishna Kumar Singh, Yilin Wang, Jing Shi, Nicholas Kolkin, Eli Shechtman, Yong Jae Lee, Yuheng Li
cs.AI

초록

인간은 단순히 속성 유사성만 보는 것이 아닌 관계적 유사성도 인식합니다. 사과가 복숭아와 비슷한 이유는 둘 다 붉은색 과일이기 때문이지만, 지구도 복숭아와 유사합니다. 지구의 지각, 맨틀, 핵은 각각 복숭아의 껍질, 과육, 씨에 대응되기 때문입니다. 이러한 관계적 유사성을 지각하고 인식하는 능력은 인지 과학자들에 의해 인간을 다른 종과 구별하는 핵심 요소로 논쟁됩니다. 그러나 현재 널리 사용되는 모든 시각 유사성 측정 방법(예: LPIPS, CLIP, DINO)은 오직 지각적 속성 유사성에만 초점을 맞추어 인간이 인지하는 풍부하고 종종 놀라운 관계적 유사성을 포착하지 못합니다. 이미지의 가시적 내용을 넘어 그 관계적 속성을 어떻게 포착할 수 있을까요? 동일한 관계적 논리를 가진 이미지들을 표현 공간에서 어떻게 더 가깝게 만들 수 있을까요? 이러한 질문에 답하기 위해 우리는 먼저 관계적 이미지 유사성을 측정 가능한 문제로 정형화합니다. 두 이미지는 시각 요소들의 속성이 다르더라도, 그 요소들 간의 내부 관계나 기능이 서로 대응될 때 관계적으로 유사하다고 정의합니다. 다음으로, 우리는 캡션이 익명화된 11만 4천 개의 이미지-캡션 데이터셋을 구축했습니다. 이 캡션들은 표면적 내용이 아니라 장면의 근본적인 관계적 논리를 설명합니다. 이 데이터셋을 사용하여 우리는 비전-언어 모델을 미세 조정하여 이미지 간의 관계적 유사성을 측정합니다. 이 모델은 가시적 외관이 아닌 근본적인 관계적 구조로 이미지를 연결하는 첫걸음이 됩니다. 우리의 연구는 관계적 유사성이 많은 실제 응용 가능성을 지니고 있음에도, 기존 이미지 유사성 모델들이 이를 포착하지 못함을 보여주며, 이는 시각 컴퓨팅 분야의 중요한 격차를 드러냅니다.
English
Humans do not just see attribute similarity -- we also see relational similarity. An apple is like a peach because both are reddish fruit, but the Earth is also like a peach: its crust, mantle, and core correspond to the peach's skin, flesh, and pit. This ability to perceive and recognize relational similarity, is arguable by cognitive scientist to be what distinguishes humans from other species. Yet, all widely used visual similarity metrics today (e.g., LPIPS, CLIP, DINO) focus solely on perceptual attribute similarity and fail to capture the rich, often surprising relational similarities that humans perceive. How can we go beyond the visible content of an image to capture its relational properties? How can we bring images with the same relational logic closer together in representation space? To answer these questions, we first formulate relational image similarity as a measurable problem: two images are relationally similar when their internal relations or functions among visual elements correspond, even if their visual attributes differ. We then curate 114k image-caption dataset in which the captions are anonymized -- describing the underlying relational logic of the scene rather than its surface content. Using this dataset, we finetune a Vision-Language model to measure the relational similarity between images. This model serves as the first step toward connecting images by their underlying relational structure rather than their visible appearance. Our study shows that while relational similarity has a lot of real-world applications, existing image similarity models fail to capture it -- revealing a critical gap in visual computing.
PDF193December 10, 2025