ChatPaper.aiChatPaper

Beeldreconstructie als hulpmiddel voor kenmerkanalyse

Image Reconstruction as a Tool for Feature Analysis

June 9, 2025
Auteurs: Eduard Allakhverdov, Dmitrii Tarasov, Elizaveta Goncharova, Andrey Kuznetsov
cs.AI

Samenvatting

Vision encoders worden steeds vaker gebruikt in moderne toepassingen, van visie-only modellen tot multimodale systemen zoals vision-language modellen. Ondanks hun opmerkelijke succes blijft het onduidelijk hoe deze architecturen kenmerken intern representeren. Hier stellen we een nieuwe benadering voor om visuele kenmerken te interpreteren via beeldreconstructie. We vergelijken twee verwante modelfamilies, SigLIP en SigLIP2, die alleen verschillen in hun trainingsdoelstelling, en laten zien dat encoders die vooraf zijn getraind op beeldgerichte taken aanzienlijk meer beeldinformatie behouden dan die welke zijn getraind op niet-beeldgerichte taken zoals contrastief leren. We passen onze methode verder toe op een reeks vision encoders en rangschikken ze op basis van de informatiewaarde van hun kenmerkrepresentaties. Ten slotte demonstreren we dat het manipuleren van de kenmerkruimte voorspelbare veranderingen in gereconstrueerde beelden oplevert, wat onthult dat orthogonale rotaties (in plaats van ruimtelijke transformaties) de kleurcodering beheersen. Onze benadering kan worden toegepast op elke vision encoder, wat inzicht geeft in de interne structuur van de kenmerkruimte. De code en modelgewichten om de experimenten te reproduceren zijn beschikbaar op GitHub.
English
Vision encoders are increasingly used in modern applications, from vision-only models to multimodal systems such as vision-language models. Despite their remarkable success, it remains unclear how these architectures represent features internally. Here, we propose a novel approach for interpreting vision features via image reconstruction. We compare two related model families, SigLIP and SigLIP2, which differ only in their training objective, and show that encoders pre-trained on image-based tasks retain significantly more image information than those trained on non-image tasks such as contrastive learning. We further apply our method to a range of vision encoders, ranking them by the informativeness of their feature representations. Finally, we demonstrate that manipulating the feature space yields predictable changes in reconstructed images, revealing that orthogonal rotations (rather than spatial transformations) control color encoding. Our approach can be applied to any vision encoder, shedding light on the inner structure of its feature space. The code and model weights to reproduce the experiments are available in GitHub.
PDF282June 10, 2025