Reconstrucción de Imágenes como Herramienta para el Análisis de Características
Image Reconstruction as a Tool for Feature Analysis
June 9, 2025
Autores: Eduard Allakhverdov, Dmitrii Tarasov, Elizaveta Goncharova, Andrey Kuznetsov
cs.AI
Resumen
Los codificadores de visión se utilizan cada vez más en aplicaciones modernas, desde modelos exclusivamente visuales hasta sistemas multimodales como los modelos de visión y lenguaje. A pesar de su notable éxito, sigue sin estar claro cómo estas arquitecturas representan internamente las características. Aquí, proponemos un enfoque novedoso para interpretar las características visuales mediante la reconstrucción de imágenes. Comparamos dos familias de modelos relacionados, SigLIP y SigLIP2, que difieren únicamente en su objetivo de entrenamiento, y demostramos que los codificadores preentrenados en tareas basadas en imágenes retienen significativamente más información visual que aquellos entrenados en tareas no visuales, como el aprendizaje contrastivo. Además, aplicamos nuestro método a una variedad de codificadores visuales, clasificándolos según la informatividad de sus representaciones de características. Finalmente, demostramos que la manipulación del espacio de características produce cambios predecibles en las imágenes reconstruidas, revelando que las rotaciones ortogonales (en lugar de las transformaciones espaciales) controlan la codificación del color. Nuestro enfoque puede aplicarse a cualquier codificador visual, arrojando luz sobre la estructura interna de su espacio de características. El código y los pesos del modelo para reproducir los experimentos están disponibles en GitHub.
English
Vision encoders are increasingly used in modern applications, from
vision-only models to multimodal systems such as vision-language models.
Despite their remarkable success, it remains unclear how these architectures
represent features internally. Here, we propose a novel approach for
interpreting vision features via image reconstruction. We compare two related
model families, SigLIP and SigLIP2, which differ only in their training
objective, and show that encoders pre-trained on image-based tasks retain
significantly more image information than those trained on non-image tasks such
as contrastive learning. We further apply our method to a range of vision
encoders, ranking them by the informativeness of their feature representations.
Finally, we demonstrate that manipulating the feature space yields predictable
changes in reconstructed images, revealing that orthogonal rotations (rather
than spatial transformations) control color encoding. Our approach can be
applied to any vision encoder, shedding light on the inner structure of its
feature space. The code and model weights to reproduce the experiments are
available in GitHub.