Über die Rangierbarkeit visueller Einbettungen
On the rankability of visual embeddings
July 4, 2025
Autoren: Ankit Sonthalia, Arnas Uselis, Seong Joon Oh
cs.AI
Zusammenfassung
Wir untersuchen, ob visuelle Embedding-Modelle kontinuierliche, ordinale Attribute entlang linearer Richtungen erfassen, die wir als _Rangachsen_ bezeichnen. Wir definieren ein Modell als _rangierbar_ für ein Attribut, wenn die Projektion von Embeddings auf eine solche Achse die Reihenfolge des Attributs bewahrt. Über 7 beliebte Encoder und 9 Datensätze mit Attributen wie Alter, Menschenmenge, Kopfpose, Ästhetik und Aktualität hinweg stellen wir fest, dass viele Embeddings inhärent rangierbar sind. Überraschenderweise reicht oft eine kleine Anzahl von Stichproben oder sogar nur zwei extreme Beispiele aus, um aussagekräftige Rangachsen wiederherzustellen, ohne umfassende Überwachung. Diese Erkenntnisse eröffnen neue Anwendungsfälle für die Bildrangierung in Vektordatenbanken und motivieren weitere Untersuchungen zur Struktur und zum Lernen von rangierbaren Embeddings. Unser Code ist verfügbar unter https://github.com/aktsonthalia/rankable-vision-embeddings.
English
We study whether visual embedding models capture continuous, ordinal
attributes along linear directions, which we term _rank axes_. We define a
model as _rankable_ for an attribute if projecting embeddings onto such an axis
preserves the attribute's order. Across 7 popular encoders and 9 datasets with
attributes like age, crowd count, head pose, aesthetics, and recency, we find
that many embeddings are inherently rankable. Surprisingly, a small number of
samples, or even just two extreme examples, often suffice to recover meaningful
rank axes, without full-scale supervision. These findings open up new use cases
for image ranking in vector databases and motivate further study into the
structure and learning of rankable embeddings. Our code is available at
https://github.com/aktsonthalia/rankable-vision-embeddings.