Sur la capacité de classement des embeddings visuels

Résumé

Nous étudions si les modèles d'incorporation visuelle capturent des attributs continus et ordinaux le long de directions linéaires, que nous appelons _axes de rang_. Nous définissons un modèle comme _rangéable_ pour un attribut si la projection des incorporations sur un tel axe préserve l'ordre de l'attribut. À travers 7 encodeurs populaires et 9 ensembles de données avec des attributs tels que l'âge, le nombre de personnes, l'orientation de la tête, l'esthétique et la récence, nous constatons que de nombreuses incorporations sont intrinsèquement rangéables. Étonnamment, un petit nombre d'échantillons, voire seulement deux exemples extrêmes, suffisent souvent à récupérer des axes de rang significatifs, sans supervision à grande échelle. Ces résultats ouvrent de nouvelles perspectives pour le classement d'images dans les bases de données vectorielles et motivent des études approfondies sur la structure et l'apprentissage des incorporations rangéables. Notre code est disponible à l'adresse https://github.com/aktsonthalia/rankable-vision-embeddings.

English

We study whether visual embedding models capture continuous, ordinal attributes along linear directions, which we term _rank axes_. We define a model as _rankable_ for an attribute if projecting embeddings onto such an axis preserves the attribute's order. Across 7 popular encoders and 9 datasets with attributes like age, crowd count, head pose, aesthetics, and recency, we find that many embeddings are inherently rankable. Surprisingly, a small number of samples, or even just two extreme examples, often suffice to recover meaningful rank axes, without full-scale supervision. These findings open up new use cases for image ranking in vector databases and motivate further study into the structure and learning of rankable embeddings. Our code is available at https://github.com/aktsonthalia/rankable-vision-embeddings.

Sur la capacité de classement des embeddings visuels

On the rankability of visual embeddings

Résumé

Support