Bildrekonstruktion als Werkzeug zur Merkmalsanalyse
Image Reconstruction as a Tool for Feature Analysis
June 9, 2025
Autoren: Eduard Allakhverdov, Dmitrii Tarasov, Elizaveta Goncharova, Andrey Kuznetsov
cs.AI
Zusammenfassung
Vision Encoder werden zunehmend in modernen Anwendungen eingesetzt, von reinen Vision-Modellen bis hin zu multimodalen Systemen wie Vision-Sprache-Modellen. Trotz ihres bemerkenswerten Erfolgs bleibt unklar, wie diese Architekturen intern Merkmale repräsentieren. Hier schlagen wir einen neuartigen Ansatz zur Interpretation von Vision-Merkmalen durch Bildrekonstruktion vor. Wir vergleichen zwei verwandte Modellfamilien, SigLIP und SigLIP2, die sich nur in ihrem Trainingsziel unterscheiden, und zeigen, dass Encoder, die auf bildbasierten Aufgaben vortrainiert wurden, signifikant mehr Bildinformationen behalten als solche, die auf nicht-bildbezogenen Aufgaben wie kontrastivem Lernen trainiert wurden. Wir wenden unsere Methode weiterhin auf eine Reihe von Vision-Encodern an und ordnen sie nach der Informationsdichte ihrer Merkmalsrepräsentationen. Schließlich demonstrieren wir, dass die Manipulation des Merkmalsraums vorhersehbare Veränderungen in rekonstruierten Bildern bewirkt, wobei sich zeigt, dass orthogonale Rotationen (und nicht räumliche Transformationen) die Farbkodierung steuern. Unser Ansatz kann auf jeden Vision-Encoder angewendet werden und gibt Einblicke in die innere Struktur seines Merkmalsraums. Der Code und die Modellgewichte zur Reproduktion der Experimente sind auf GitHub verfügbar.
English
Vision encoders are increasingly used in modern applications, from
vision-only models to multimodal systems such as vision-language models.
Despite their remarkable success, it remains unclear how these architectures
represent features internally. Here, we propose a novel approach for
interpreting vision features via image reconstruction. We compare two related
model families, SigLIP and SigLIP2, which differ only in their training
objective, and show that encoders pre-trained on image-based tasks retain
significantly more image information than those trained on non-image tasks such
as contrastive learning. We further apply our method to a range of vision
encoders, ranking them by the informativeness of their feature representations.
Finally, we demonstrate that manipulating the feature space yields predictable
changes in reconstructed images, revealing that orthogonal rotations (rather
than spatial transformations) control color encoding. Our approach can be
applied to any vision encoder, shedding light on the inner structure of its
feature space. The code and model weights to reproduce the experiments are
available in GitHub.