Sur la capacité de classement des embeddings visuels
On the rankability of visual embeddings
July 4, 2025
Auteurs: Ankit Sonthalia, Arnas Uselis, Seong Joon Oh
cs.AI
Résumé
Nous étudions si les modèles d'incorporation visuelle capturent des attributs continus et ordinaux le long de directions linéaires, que nous appelons _axes de rang_. Nous définissons un modèle comme _rangéable_ pour un attribut si la projection des incorporations sur un tel axe préserve l'ordre de l'attribut. À travers 7 encodeurs populaires et 9 ensembles de données avec des attributs tels que l'âge, le nombre de personnes, l'orientation de la tête, l'esthétique et la récence, nous constatons que de nombreuses incorporations sont intrinsèquement rangéables. Étonnamment, un petit nombre d'échantillons, voire seulement deux exemples extrêmes, suffisent souvent à récupérer des axes de rang significatifs, sans supervision à grande échelle. Ces résultats ouvrent de nouvelles perspectives pour le classement d'images dans les bases de données vectorielles et motivent des études approfondies sur la structure et l'apprentissage des incorporations rangéables. Notre code est disponible à l'adresse https://github.com/aktsonthalia/rankable-vision-embeddings.
English
We study whether visual embedding models capture continuous, ordinal
attributes along linear directions, which we term _rank axes_. We define a
model as _rankable_ for an attribute if projecting embeddings onto such an axis
preserves the attribute's order. Across 7 popular encoders and 9 datasets with
attributes like age, crowd count, head pose, aesthetics, and recency, we find
that many embeddings are inherently rankable. Surprisingly, a small number of
samples, or even just two extreme examples, often suffice to recover meaningful
rank axes, without full-scale supervision. These findings open up new use cases
for image ranking in vector databases and motivate further study into the
structure and learning of rankable embeddings. Our code is available at
https://github.com/aktsonthalia/rankable-vision-embeddings.