Over de rangschikbaarheid van visuele embeddings

Samenvatting

We onderzoeken of visuele embeddingmodellen continue, ordinale attributen vastleggen langs lineaire richtingen, die we _rankassen_ noemen. We definiëren een model als _rankbaar_ voor een attribuut als het projecteren van embeddings op zo'n as de volgorde van het attribuut behoudt. Over 7 populaire encoders en 9 datasets met attributen zoals leeftijd, menigte-aantal, hoofdpositie, esthetiek en recentheid, vinden we dat veel embeddings inherent rankbaar zijn. Verrassend genoeg is vaak een klein aantal voorbeelden, of zelfs slechts twee extreme voorbeelden, voldoende om betekenisvolle rankassen te herstellen, zonder volledige supervisie. Deze bevindingen openen nieuwe toepassingsmogelijkheden voor beeldrangschikking in vectordatabases en motiveren verder onderzoek naar de structuur en het leren van rankbare embeddings. Onze code is beschikbaar op https://github.com/aktsonthalia/rankable-vision-embeddings.

English

We study whether visual embedding models capture continuous, ordinal attributes along linear directions, which we term _rank axes_. We define a model as _rankable_ for an attribute if projecting embeddings onto such an axis preserves the attribute's order. Across 7 popular encoders and 9 datasets with attributes like age, crowd count, head pose, aesthetics, and recency, we find that many embeddings are inherently rankable. Surprisingly, a small number of samples, or even just two extreme examples, often suffice to recover meaningful rank axes, without full-scale supervision. These findings open up new use cases for image ranking in vector databases and motivate further study into the structure and learning of rankable embeddings. Our code is available at https://github.com/aktsonthalia/rankable-vision-embeddings.

Over de rangschikbaarheid van visuele embeddings

On the rankability of visual embeddings

Samenvatting

Support