Beeldreconstructie als hulpmiddel voor kenmerkanalyse
Image Reconstruction as a Tool for Feature Analysis
June 9, 2025
Auteurs: Eduard Allakhverdov, Dmitrii Tarasov, Elizaveta Goncharova, Andrey Kuznetsov
cs.AI
Samenvatting
Vision encoders worden steeds vaker gebruikt in moderne toepassingen, van visie-only modellen tot multimodale systemen zoals vision-language modellen. Ondanks hun opmerkelijke succes blijft het onduidelijk hoe deze architecturen kenmerken intern representeren. Hier stellen we een nieuwe benadering voor om visuele kenmerken te interpreteren via beeldreconstructie. We vergelijken twee verwante modelfamilies, SigLIP en SigLIP2, die alleen verschillen in hun trainingsdoelstelling, en laten zien dat encoders die vooraf zijn getraind op beeldgerichte taken aanzienlijk meer beeldinformatie behouden dan die welke zijn getraind op niet-beeldgerichte taken zoals contrastief leren. We passen onze methode verder toe op een reeks vision encoders en rangschikken ze op basis van de informatiewaarde van hun kenmerkrepresentaties. Ten slotte demonstreren we dat het manipuleren van de kenmerkruimte voorspelbare veranderingen in gereconstrueerde beelden oplevert, wat onthult dat orthogonale rotaties (in plaats van ruimtelijke transformaties) de kleurcodering beheersen. Onze benadering kan worden toegepast op elke vision encoder, wat inzicht geeft in de interne structuur van de kenmerkruimte. De code en modelgewichten om de experimenten te reproduceren zijn beschikbaar op GitHub.
English
Vision encoders are increasingly used in modern applications, from
vision-only models to multimodal systems such as vision-language models.
Despite their remarkable success, it remains unclear how these architectures
represent features internally. Here, we propose a novel approach for
interpreting vision features via image reconstruction. We compare two related
model families, SigLIP and SigLIP2, which differ only in their training
objective, and show that encoders pre-trained on image-based tasks retain
significantly more image information than those trained on non-image tasks such
as contrastive learning. We further apply our method to a range of vision
encoders, ranking them by the informativeness of their feature representations.
Finally, we demonstrate that manipulating the feature space yields predictable
changes in reconstructed images, revealing that orthogonal rotations (rather
than spatial transformations) control color encoding. Our approach can be
applied to any vision encoder, shedding light on the inner structure of its
feature space. The code and model weights to reproduce the experiments are
available in GitHub.