ChatPaper.aiChatPaper

Sobre la clasificabilidad de los embeddings visuales

On the rankability of visual embeddings

July 4, 2025
Autores: Ankit Sonthalia, Arnas Uselis, Seong Joon Oh
cs.AI

Resumen

Estudiamos si los modelos de incrustación visual capturan atributos continuos y ordinales a lo largo de direcciones lineales, a las que denominamos _ejes de rango_. Definimos un modelo como _clasificable_ para un atributo si la proyección de las incrustaciones sobre dicho eje preserva el orden del atributo. A través de 7 codificadores populares y 9 conjuntos de datos con atributos como edad, cantidad de personas, orientación de la cabeza, estética y antigüedad, encontramos que muchas incrustaciones son inherentemente clasificables. Sorprendentemente, un pequeño número de muestras, o incluso solo dos ejemplos extremos, a menudo son suficientes para recuperar ejes de rango significativos, sin necesidad de supervisión a gran escala. Estos hallazgos abren nuevos casos de uso para la clasificación de imágenes en bases de datos vectoriales y motivan un estudio más profundo sobre la estructura y el aprendizaje de incrustaciones clasificables. Nuestro código está disponible en https://github.com/aktsonthalia/rankable-vision-embeddings.
English
We study whether visual embedding models capture continuous, ordinal attributes along linear directions, which we term _rank axes_. We define a model as _rankable_ for an attribute if projecting embeddings onto such an axis preserves the attribute's order. Across 7 popular encoders and 9 datasets with attributes like age, crowd count, head pose, aesthetics, and recency, we find that many embeddings are inherently rankable. Surprisingly, a small number of samples, or even just two extreme examples, often suffice to recover meaningful rank axes, without full-scale supervision. These findings open up new use cases for image ranking in vector databases and motivate further study into the structure and learning of rankable embeddings. Our code is available at https://github.com/aktsonthalia/rankable-vision-embeddings.
PDF91July 8, 2025