Reconstrução de Imagens como Ferramenta para Análise de Características
Image Reconstruction as a Tool for Feature Analysis
June 9, 2025
Autores: Eduard Allakhverdov, Dmitrii Tarasov, Elizaveta Goncharova, Andrey Kuznetsov
cs.AI
Resumo
Codificadores visuais estão sendo cada vez mais utilizados em aplicações modernas, desde modelos exclusivamente visuais até sistemas multimodais, como modelos visão-linguagem. Apesar de seu notável sucesso, ainda não está claro como essas arquiteturas representam as características internamente. Aqui, propomos uma nova abordagem para interpretar características visuais por meio de reconstrução de imagens. Comparamos duas famílias de modelos relacionadas, SigLIP e SigLIP2, que diferem apenas em seu objetivo de treinamento, e mostramos que codificadores pré-treinados em tarefas baseadas em imagens retêm significativamente mais informações da imagem do que aqueles treinados em tarefas não visuais, como aprendizado contrastivo. Aplicamos ainda nosso método a uma variedade de codificadores visuais, classificando-os pela informatividade de suas representações de características. Por fim, demonstramos que a manipulação do espaço de características resulta em mudanças previsíveis nas imagens reconstruídas, revelando que rotações ortogonais (em vez de transformações espaciais) controlam a codificação de cores. Nossa abordagem pode ser aplicada a qualquer codificador visual, lançando luz sobre a estrutura interna de seu espaço de características. O código e os pesos dos modelos para reproduzir os experimentos estão disponíveis no GitHub.
English
Vision encoders are increasingly used in modern applications, from
vision-only models to multimodal systems such as vision-language models.
Despite their remarkable success, it remains unclear how these architectures
represent features internally. Here, we propose a novel approach for
interpreting vision features via image reconstruction. We compare two related
model families, SigLIP and SigLIP2, which differ only in their training
objective, and show that encoders pre-trained on image-based tasks retain
significantly more image information than those trained on non-image tasks such
as contrastive learning. We further apply our method to a range of vision
encoders, ranking them by the informativeness of their feature representations.
Finally, we demonstrate that manipulating the feature space yields predictable
changes in reconstructed images, revealing that orthogonal rotations (rather
than spatial transformations) control color encoding. Our approach can be
applied to any vision encoder, shedding light on the inner structure of its
feature space. The code and model weights to reproduce the experiments are
available in GitHub.