Over de rangschikbaarheid van visuele embeddings
On the rankability of visual embeddings
July 4, 2025
Auteurs: Ankit Sonthalia, Arnas Uselis, Seong Joon Oh
cs.AI
Samenvatting
We onderzoeken of visuele embeddingmodellen continue, ordinale attributen vastleggen langs lineaire richtingen, die we _rankassen_ noemen. We definiëren een model als _rankbaar_ voor een attribuut als het projecteren van embeddings op zo'n as de volgorde van het attribuut behoudt. Over 7 populaire encoders en 9 datasets met attributen zoals leeftijd, menigte-aantal, hoofdpositie, esthetiek en recentheid, vinden we dat veel embeddings inherent rankbaar zijn. Verrassend genoeg is vaak een klein aantal voorbeelden, of zelfs slechts twee extreme voorbeelden, voldoende om betekenisvolle rankassen te herstellen, zonder volledige supervisie. Deze bevindingen openen nieuwe toepassingsmogelijkheden voor beeldrangschikking in vectordatabases en motiveren verder onderzoek naar de structuur en het leren van rankbare embeddings. Onze code is beschikbaar op https://github.com/aktsonthalia/rankable-vision-embeddings.
English
We study whether visual embedding models capture continuous, ordinal
attributes along linear directions, which we term _rank axes_. We define a
model as _rankable_ for an attribute if projecting embeddings onto such an axis
preserves the attribute's order. Across 7 popular encoders and 9 datasets with
attributes like age, crowd count, head pose, aesthetics, and recency, we find
that many embeddings are inherently rankable. Surprisingly, a small number of
samples, or even just two extreme examples, often suffice to recover meaningful
rank axes, without full-scale supervision. These findings open up new use cases
for image ranking in vector databases and motivate further study into the
structure and learning of rankable embeddings. Our code is available at
https://github.com/aktsonthalia/rankable-vision-embeddings.