ChatPaper.aiChatPaper

О ранжируемости визуальных вложений

On the rankability of visual embeddings

July 4, 2025
Авторы: Ankit Sonthalia, Arnas Uselis, Seong Joon Oh
cs.AI

Аннотация

Мы исследуем, захватывают ли визуальные модели встраивания непрерывные порядковые атрибуты вдоль линейных направлений, которые мы называем _ранговыми осями_. Мы определяем модель как _ранжируемую_ для атрибута, если проекция встраиваний на такую ось сохраняет порядок атрибута. На основе анализа 7 популярных кодировщиков и 9 наборов данных с атрибутами, такими как возраст, количество людей, положение головы, эстетика и актуальность, мы обнаруживаем, что многие встраивания изначально являются ранжируемыми. Удивительно, что небольшое количество образцов, или даже всего два крайних примера, часто достаточно для восстановления значимых ранговых осей без полномасштабного обучения с учителем. Эти результаты открывают новые возможности для ранжирования изображений в векторных базах данных и мотивируют дальнейшее изучение структуры и обучения ранжируемых встраиваний. Наш код доступен по адресу https://github.com/aktsonthalia/rankable-vision-embeddings.
English
We study whether visual embedding models capture continuous, ordinal attributes along linear directions, which we term _rank axes_. We define a model as _rankable_ for an attribute if projecting embeddings onto such an axis preserves the attribute's order. Across 7 popular encoders and 9 datasets with attributes like age, crowd count, head pose, aesthetics, and recency, we find that many embeddings are inherently rankable. Surprisingly, a small number of samples, or even just two extreme examples, often suffice to recover meaningful rank axes, without full-scale supervision. These findings open up new use cases for image ranking in vector databases and motivate further study into the structure and learning of rankable embeddings. Our code is available at https://github.com/aktsonthalia/rankable-vision-embeddings.
PDF91July 8, 2025