Sobre a classificabilidade de embeddings visuais
On the rankability of visual embeddings
July 4, 2025
Autores: Ankit Sonthalia, Arnas Uselis, Seong Joon Oh
cs.AI
Resumo
Investigamos se modelos de incorporação visual capturam atributos contínuos e ordinais ao longo de direções lineares, que denominamos _eixos de classificação_. Definimos um modelo como _classificável_ para um atributo se a projeção das incorporações em tal eixo preserva a ordem do atributo. Em 7 codificadores populares e 9 conjuntos de dados com atributos como idade, contagem de pessoas, pose da cabeça, estética e recência, descobrimos que muitas incorporações são inerentemente classificáveis. Surpreendentemente, um pequeno número de amostras, ou mesmo apenas dois exemplos extremos, frequentemente são suficientes para recuperar eixos de classificação significativos, sem supervisão em larga escala. Esses achados abrem novos casos de uso para classificação de imagens em bancos de dados vetoriais e motivam estudos adicionais sobre a estrutura e o aprendizado de incorporações classificáveis. Nosso código está disponível em https://github.com/aktsonthalia/rankable-vision-embeddings.
English
We study whether visual embedding models capture continuous, ordinal
attributes along linear directions, which we term _rank axes_. We define a
model as _rankable_ for an attribute if projecting embeddings onto such an axis
preserves the attribute's order. Across 7 popular encoders and 9 datasets with
attributes like age, crowd count, head pose, aesthetics, and recency, we find
that many embeddings are inherently rankable. Surprisingly, a small number of
samples, or even just two extreme examples, often suffice to recover meaningful
rank axes, without full-scale supervision. These findings open up new use cases
for image ranking in vector databases and motivate further study into the
structure and learning of rankable embeddings. Our code is available at
https://github.com/aktsonthalia/rankable-vision-embeddings.