ChatPaper.aiChatPaper

Über die Rangierbarkeit visueller Einbettungen

On the rankability of visual embeddings

July 4, 2025
Autoren: Ankit Sonthalia, Arnas Uselis, Seong Joon Oh
cs.AI

Zusammenfassung

Wir untersuchen, ob visuelle Embedding-Modelle kontinuierliche, ordinale Attribute entlang linearer Richtungen erfassen, die wir als _Rangachsen_ bezeichnen. Wir definieren ein Modell als _rangierbar_ für ein Attribut, wenn die Projektion von Embeddings auf eine solche Achse die Reihenfolge des Attributs bewahrt. Über 7 beliebte Encoder und 9 Datensätze mit Attributen wie Alter, Menschenmenge, Kopfpose, Ästhetik und Aktualität hinweg stellen wir fest, dass viele Embeddings inhärent rangierbar sind. Überraschenderweise reicht oft eine kleine Anzahl von Stichproben oder sogar nur zwei extreme Beispiele aus, um aussagekräftige Rangachsen wiederherzustellen, ohne umfassende Überwachung. Diese Erkenntnisse eröffnen neue Anwendungsfälle für die Bildrangierung in Vektordatenbanken und motivieren weitere Untersuchungen zur Struktur und zum Lernen von rangierbaren Embeddings. Unser Code ist verfügbar unter https://github.com/aktsonthalia/rankable-vision-embeddings.
English
We study whether visual embedding models capture continuous, ordinal attributes along linear directions, which we term _rank axes_. We define a model as _rankable_ for an attribute if projecting embeddings onto such an axis preserves the attribute's order. Across 7 popular encoders and 9 datasets with attributes like age, crowd count, head pose, aesthetics, and recency, we find that many embeddings are inherently rankable. Surprisingly, a small number of samples, or even just two extreme examples, often suffice to recover meaningful rank axes, without full-scale supervision. These findings open up new use cases for image ranking in vector databases and motivate further study into the structure and learning of rankable embeddings. Our code is available at https://github.com/aktsonthalia/rankable-vision-embeddings.
PDF91July 8, 2025