Sulla classificabilità degli embedding visivi
On the rankability of visual embeddings
July 4, 2025
Autori: Ankit Sonthalia, Arnas Uselis, Seong Joon Oh
cs.AI
Abstract
Studiamo se i modelli di embedding visivi catturino attributi continui e ordinali lungo direzioni lineari, che definiamo _assi di rango_. Definiamo un modello come _rankabile_ per un attributo se la proiezione degli embedding su tale asse preserva l'ordine dell'attributo. Attraverso 7 encoder popolari e 9 dataset con attributi come età, numero di persone, orientamento della testa, estetica e recentezza, scopriamo che molti embedding sono intrinsecamente rankabili. Sorprendentemente, un piccolo numero di campioni, o anche solo due esempi estremi, spesso sono sufficienti per recuperare assi di rango significativi, senza una supervisione su larga scala. Questi risultati aprono nuovi casi d'uso per il ranking di immagini nei database vettoriali e motivano ulteriori studi sulla struttura e l'apprendimento di embedding rankabili. Il nostro codice è disponibile all'indirizzo https://github.com/aktsonthalia/rankable-vision-embeddings.
English
We study whether visual embedding models capture continuous, ordinal
attributes along linear directions, which we term _rank axes_. We define a
model as _rankable_ for an attribute if projecting embeddings onto such an axis
preserves the attribute's order. Across 7 popular encoders and 9 datasets with
attributes like age, crowd count, head pose, aesthetics, and recency, we find
that many embeddings are inherently rankable. Surprisingly, a small number of
samples, or even just two extreme examples, often suffice to recover meaningful
rank axes, without full-scale supervision. These findings open up new use cases
for image ranking in vector databases and motivate further study into the
structure and learning of rankable embeddings. Our code is available at
https://github.com/aktsonthalia/rankable-vision-embeddings.