Ricostruzione delle Immagini come Strumento per l'Analisi delle Caratteristiche
Image Reconstruction as a Tool for Feature Analysis
June 9, 2025
Autori: Eduard Allakhverdov, Dmitrii Tarasov, Elizaveta Goncharova, Andrey Kuznetsov
cs.AI
Abstract
Gli encoder visivi sono sempre più utilizzati nelle applicazioni moderne, dai modelli esclusivamente visivi ai sistemi multimodali come i modelli visione-linguaggio. Nonostante il loro notevole successo, rimane poco chiaro come queste architetture rappresentino internamente le caratteristiche. Qui proponiamo un nuovo approccio per interpretare le caratteristiche visive attraverso la ricostruzione delle immagini. Confrontiamo due famiglie di modelli correlate, SigLIP e SigLIP2, che differiscono solo per il loro obiettivo di addestramento, e dimostriamo che gli encoder pre-addestrati su compiti basati su immagini conservano significativamente più informazioni visive rispetto a quelli addestrati su compiti non visivi come l'apprendimento contrastivo. Applichiamo ulteriormente il nostro metodo a una gamma di encoder visivi, classificandoli in base all'informatività delle loro rappresentazioni delle caratteristiche. Infine, dimostriamo che la manipolazione dello spazio delle caratteristiche produce cambiamenti prevedibili nelle immagini ricostruite, rivelando che le rotazioni ortogonali (piuttosto che le trasformazioni spaziali) controllano la codifica del colore. Il nostro approccio può essere applicato a qualsiasi encoder visivo, gettando luce sulla struttura interna del suo spazio delle caratteristiche. Il codice e i pesi del modello per riprodurre gli esperimenti sono disponibili su GitHub.
English
Vision encoders are increasingly used in modern applications, from
vision-only models to multimodal systems such as vision-language models.
Despite their remarkable success, it remains unclear how these architectures
represent features internally. Here, we propose a novel approach for
interpreting vision features via image reconstruction. We compare two related
model families, SigLIP and SigLIP2, which differ only in their training
objective, and show that encoders pre-trained on image-based tasks retain
significantly more image information than those trained on non-image tasks such
as contrastive learning. We further apply our method to a range of vision
encoders, ranking them by the informativeness of their feature representations.
Finally, we demonstrate that manipulating the feature space yields predictable
changes in reconstructed images, revealing that orthogonal rotations (rather
than spatial transformations) control color encoding. Our approach can be
applied to any vision encoder, shedding light on the inner structure of its
feature space. The code and model weights to reproduce the experiments are
available in GitHub.