ChatPaper.aiChatPaper

Sulla classificabilità degli embedding visivi

On the rankability of visual embeddings

July 4, 2025
Autori: Ankit Sonthalia, Arnas Uselis, Seong Joon Oh
cs.AI

Abstract

Studiamo se i modelli di embedding visivi catturino attributi continui e ordinali lungo direzioni lineari, che definiamo _assi di rango_. Definiamo un modello come _rankabile_ per un attributo se la proiezione degli embedding su tale asse preserva l'ordine dell'attributo. Attraverso 7 encoder popolari e 9 dataset con attributi come età, numero di persone, orientamento della testa, estetica e recentezza, scopriamo che molti embedding sono intrinsecamente rankabili. Sorprendentemente, un piccolo numero di campioni, o anche solo due esempi estremi, spesso sono sufficienti per recuperare assi di rango significativi, senza una supervisione su larga scala. Questi risultati aprono nuovi casi d'uso per il ranking di immagini nei database vettoriali e motivano ulteriori studi sulla struttura e l'apprendimento di embedding rankabili. Il nostro codice è disponibile all'indirizzo https://github.com/aktsonthalia/rankable-vision-embeddings.
English
We study whether visual embedding models capture continuous, ordinal attributes along linear directions, which we term _rank axes_. We define a model as _rankable_ for an attribute if projecting embeddings onto such an axis preserves the attribute's order. Across 7 popular encoders and 9 datasets with attributes like age, crowd count, head pose, aesthetics, and recency, we find that many embeddings are inherently rankable. Surprisingly, a small number of samples, or even just two extreme examples, often suffice to recover meaningful rank axes, without full-scale supervision. These findings open up new use cases for image ranking in vector databases and motivate further study into the structure and learning of rankable embeddings. Our code is available at https://github.com/aktsonthalia/rankable-vision-embeddings.
PDF151July 8, 2025