Sobre la clasificabilidad de los embeddings visuales
On the rankability of visual embeddings
July 4, 2025
Autores: Ankit Sonthalia, Arnas Uselis, Seong Joon Oh
cs.AI
Resumen
Estudiamos si los modelos de incrustación visual capturan atributos continuos y ordinales a lo largo de direcciones lineales, a las que denominamos _ejes de rango_. Definimos un modelo como _clasificable_ para un atributo si la proyección de las incrustaciones sobre dicho eje preserva el orden del atributo. A través de 7 codificadores populares y 9 conjuntos de datos con atributos como edad, cantidad de personas, orientación de la cabeza, estética y antigüedad, encontramos que muchas incrustaciones son inherentemente clasificables. Sorprendentemente, un pequeño número de muestras, o incluso solo dos ejemplos extremos, a menudo son suficientes para recuperar ejes de rango significativos, sin necesidad de supervisión a gran escala. Estos hallazgos abren nuevos casos de uso para la clasificación de imágenes en bases de datos vectoriales y motivan un estudio más profundo sobre la estructura y el aprendizaje de incrustaciones clasificables. Nuestro código está disponible en https://github.com/aktsonthalia/rankable-vision-embeddings.
English
We study whether visual embedding models capture continuous, ordinal
attributes along linear directions, which we term _rank axes_. We define a
model as _rankable_ for an attribute if projecting embeddings onto such an axis
preserves the attribute's order. Across 7 popular encoders and 9 datasets with
attributes like age, crowd count, head pose, aesthetics, and recency, we find
that many embeddings are inherently rankable. Surprisingly, a small number of
samples, or even just two extreme examples, often suffice to recover meaningful
rank axes, without full-scale supervision. These findings open up new use cases
for image ranking in vector databases and motivate further study into the
structure and learning of rankable embeddings. Our code is available at
https://github.com/aktsonthalia/rankable-vision-embeddings.