関係的視覚的類似性
Relational Visual Similarity
December 8, 2025
著者: Thao Nguyen, Sicheng Mo, Krishna Kumar Singh, Yilin Wang, Jing Shi, Nicholas Kolkin, Eli Shechtman, Yong Jae Lee, Yuheng Li
cs.AI
要旨
人間は単に属性的な類似性を認識するだけではありません。我々は関係的類似性も見出します。リンゴがモモに似ているのは、両者が赤みがかった果物だからですが、地球もまたモモに似ています:地殻・マントル・核は、モモの皮・果肉・核に対応するからです。この関係的類似性を認識する能力は、認知科学者によって、人類を他の種から区別する特徴であると論じられています。しかし、現在広く使われている視覚的類似性指標(LPIPS、CLIP、DINOなど)はすべて、知覚的属性的類似性にのみ焦点を当てており、人間が知覚する豊かでしばしば驚くべき関係的類似性を捉えることに失敗しています。どのようにすれば、画像の可視的な内容を超えて、その関係的性質を捉えることができるのでしょうか?同じ関係的論理を持つ画像を、表現空間において互いに近づけるにはどうすればよいのでしょうか?これらの問いに答えるため、我々はまず関係的画像類似性を測定可能な問題として定式化します:二つの画像は、視覚的属性が異なっていても、それらの視覚要素間の内的関係や機能が対応するときに、関係的に類似しているとします。次に、キャプションが匿名化された(場面の表面的な内容ではなく、根底にある関係的論理を記述する)114kの画像キャプションデータセットを構築しました。このデータセットを用いて、Vision-Languageモデルをファインチューニングし、画像間の関係的類似性を測定します。このモデルは、可視的な外見ではなく、根底にある関係的構造によって画像を結びつけるための第一歩となります。我々の研究は、関係的類似性が多くの実世界応用を持つ一方で、既存の画像類似性モデルはそれを捉えられないことを示しており、視覚コンピューティングにおける重大なギャップを明らかにしています。
English
Humans do not just see attribute similarity -- we also see relational similarity. An apple is like a peach because both are reddish fruit, but the Earth is also like a peach: its crust, mantle, and core correspond to the peach's skin, flesh, and pit. This ability to perceive and recognize relational similarity, is arguable by cognitive scientist to be what distinguishes humans from other species. Yet, all widely used visual similarity metrics today (e.g., LPIPS, CLIP, DINO) focus solely on perceptual attribute similarity and fail to capture the rich, often surprising relational similarities that humans perceive. How can we go beyond the visible content of an image to capture its relational properties? How can we bring images with the same relational logic closer together in representation space? To answer these questions, we first formulate relational image similarity as a measurable problem: two images are relationally similar when their internal relations or functions among visual elements correspond, even if their visual attributes differ. We then curate 114k image-caption dataset in which the captions are anonymized -- describing the underlying relational logic of the scene rather than its surface content. Using this dataset, we finetune a Vision-Language model to measure the relational similarity between images. This model serves as the first step toward connecting images by their underlying relational structure rather than their visible appearance. Our study shows that while relational similarity has a lot of real-world applications, existing image similarity models fail to capture it -- revealing a critical gap in visual computing.