ChatPaper.aiChatPaper

La reconstruction d'image comme outil d'analyse des caractéristiques

Image Reconstruction as a Tool for Feature Analysis

June 9, 2025
Auteurs: Eduard Allakhverdov, Dmitrii Tarasov, Elizaveta Goncharova, Andrey Kuznetsov
cs.AI

Résumé

Les encodeurs de vision sont de plus en plus utilisés dans les applications modernes, allant des modèles purement visuels aux systèmes multimodaux tels que les modèles vision-langage. Malgré leur succès remarquable, il reste incertain comment ces architectures représentent les caractéristiques en interne. Ici, nous proposons une nouvelle approche pour interpréter les caractéristiques visuelles via la reconstruction d'images. Nous comparons deux familles de modèles apparentées, SigLIP et SigLIP2, qui diffèrent uniquement par leur objectif d'apprentissage, et montrons que les encodeurs pré-entraînés sur des tâches basées sur les images conservent significativement plus d'informations visuelles que ceux entraînés sur des tâches non visuelles telles que l'apprentissage contrastif. Nous appliquons en outre notre méthode à une gamme d'encodeurs de vision, les classant selon l'informativité de leurs représentations de caractéristiques. Enfin, nous démontrons que la manipulation de l'espace des caractéristiques entraîne des changements prévisibles dans les images reconstruites, révélant que les rotations orthogonales (plutôt que les transformations spatiales) contrôlent l'encodage des couleurs. Notre approche peut être appliquée à tout encodeur de vision, éclairant la structure interne de son espace de caractéristiques. Le code et les poids des modèles pour reproduire les expériences sont disponibles sur GitHub.
English
Vision encoders are increasingly used in modern applications, from vision-only models to multimodal systems such as vision-language models. Despite their remarkable success, it remains unclear how these architectures represent features internally. Here, we propose a novel approach for interpreting vision features via image reconstruction. We compare two related model families, SigLIP and SigLIP2, which differ only in their training objective, and show that encoders pre-trained on image-based tasks retain significantly more image information than those trained on non-image tasks such as contrastive learning. We further apply our method to a range of vision encoders, ranking them by the informativeness of their feature representations. Finally, we demonstrate that manipulating the feature space yields predictable changes in reconstructed images, revealing that orthogonal rotations (rather than spatial transformations) control color encoding. Our approach can be applied to any vision encoder, shedding light on the inner structure of its feature space. The code and model weights to reproduce the experiments are available in GitHub.
PDF282June 10, 2025