Sobre a classificabilidade de embeddings visuais

Resumo

Investigamos se modelos de incorporação visual capturam atributos contínuos e ordinais ao longo de direções lineares, que denominamos _eixos de classificação_. Definimos um modelo como _classificável_ para um atributo se a projeção das incorporações em tal eixo preserva a ordem do atributo. Em 7 codificadores populares e 9 conjuntos de dados com atributos como idade, contagem de pessoas, pose da cabeça, estética e recência, descobrimos que muitas incorporações são inerentemente classificáveis. Surpreendentemente, um pequeno número de amostras, ou mesmo apenas dois exemplos extremos, frequentemente são suficientes para recuperar eixos de classificação significativos, sem supervisão em larga escala. Esses achados abrem novos casos de uso para classificação de imagens em bancos de dados vetoriais e motivam estudos adicionais sobre a estrutura e o aprendizado de incorporações classificáveis. Nosso código está disponível em https://github.com/aktsonthalia/rankable-vision-embeddings.

English

We study whether visual embedding models capture continuous, ordinal attributes along linear directions, which we term _rank axes_. We define a model as _rankable_ for an attribute if projecting embeddings onto such an axis preserves the attribute's order. Across 7 popular encoders and 9 datasets with attributes like age, crowd count, head pose, aesthetics, and recency, we find that many embeddings are inherently rankable. Surprisingly, a small number of samples, or even just two extreme examples, often suffice to recover meaningful rank axes, without full-scale supervision. These findings open up new use cases for image ranking in vector databases and motivate further study into the structure and learning of rankable embeddings. Our code is available at https://github.com/aktsonthalia/rankable-vision-embeddings.

Sobre a classificabilidade de embeddings visuais

On the rankability of visual embeddings

Resumo

Support