ChatPaper.aiChatPaper

Относительное визуальное сходство

Relational Visual Similarity

December 8, 2025
Авторы: Thao Nguyen, Sicheng Mo, Krishna Kumar Singh, Yilin Wang, Jing Shi, Nicholas Kolkin, Eli Shechtman, Yong Jae Lee, Yuheng Li
cs.AI

Аннотация

Люди воспринимают не только сходство атрибутов — мы также видим сходство отношений. Яблоко похоже на персик, потому что оба являются красноватыми фруктами, но Земля также похожа на персик: ее кора, мантия и ядро соответствуют кожице, мякоти и косточке персика. Способность воспринимать и распознавать реляционное сходство, по мнению когнитивных ученых, является тем, что отличает человека от других видов. Тем не менее, все широко используемые сегодня метрики визуального сходства (например, LPIPS, CLIP, DINO) сосредоточены исключительно на перцептивном сходстве атрибутов и не улавливают богатые, зачастую неожиданные реляционные сходства, которые воспринимают люди. Как мы можем выйти за пределы видимого содержания изображения, чтобы уловить его реляционные свойства? Как мы можем сблизить в пространстве представлений изображения с одинаковой реляционной логикой? Чтобы ответить на эти вопросы, мы сначала формулируем реляционное сходство изображений как измеримую проблему: два изображения реляционно подобны, когда их внутренние отношения или функции среди визуальных элементов соответствуют друг другу, даже если их визуальные атрибуты различаются. Затем мы создаем набор данных из 114 тыс. изображений с подписями, в которых подписи анонимизированы — они описывают лежащую в основе реляционную логику сцены, а не ее поверхностное содержание. Используя этот набор данных, мы дообучаем визуально-языковую модель для измерения реляционного сходства между изображениями. Эта модель служит первым шагом на пути к соединению изображений на основе их глубинной реляционной структуры, а не видимого внешнего вида. Наше исследование показывает, что, хотя реляционное сходство имеет множество практических применений, существующие модели сходства изображений не способны его уловить — что выявляет критический пробел в области визуальных вычислений.
English
Humans do not just see attribute similarity -- we also see relational similarity. An apple is like a peach because both are reddish fruit, but the Earth is also like a peach: its crust, mantle, and core correspond to the peach's skin, flesh, and pit. This ability to perceive and recognize relational similarity, is arguable by cognitive scientist to be what distinguishes humans from other species. Yet, all widely used visual similarity metrics today (e.g., LPIPS, CLIP, DINO) focus solely on perceptual attribute similarity and fail to capture the rich, often surprising relational similarities that humans perceive. How can we go beyond the visible content of an image to capture its relational properties? How can we bring images with the same relational logic closer together in representation space? To answer these questions, we first formulate relational image similarity as a measurable problem: two images are relationally similar when their internal relations or functions among visual elements correspond, even if their visual attributes differ. We then curate 114k image-caption dataset in which the captions are anonymized -- describing the underlying relational logic of the scene rather than its surface content. Using this dataset, we finetune a Vision-Language model to measure the relational similarity between images. This model serves as the first step toward connecting images by their underlying relational structure rather than their visible appearance. Our study shows that while relational similarity has a lot of real-world applications, existing image similarity models fail to capture it -- revealing a critical gap in visual computing.
PDF193December 10, 2025