Реконструкция изображений как инструмент анализа признаков
Image Reconstruction as a Tool for Feature Analysis
June 9, 2025
Авторы: Eduard Allakhverdov, Dmitrii Tarasov, Elizaveta Goncharova, Andrey Kuznetsov
cs.AI
Аннотация
Визуальные энкодеры все чаще используются в современных приложениях, начиная от моделей, работающих исключительно с изображениями, и заканчивая мультимодальными системами, такими как модели, объединяющие зрение и язык. Несмотря на их впечатляющий успех, остается неясным, как эти архитектуры внутренне представляют признаки. В данной работе мы предлагаем новый подход для интерпретации визуальных признаков через реконструкцию изображений. Мы сравниваем два связанных семейства моделей, SigLIP и SigLIP2, которые различаются только целью обучения, и показываем, что энкодеры, предварительно обученные на задачах, связанных с изображениями, сохраняют значительно больше информации об изображении, чем те, которые обучены на задачах, не связанных с изображениями, таких как контрастное обучение. Мы также применяем наш метод к ряду визуальных энкодеров, ранжируя их по информативности их представлений признаков. Наконец, мы демонстрируем, что манипуляции в пространстве признаков приводят к предсказуемым изменениям в реконструированных изображениях, показывая, что ортогональные вращения (а не пространственные преобразования) управляют кодированием цвета. Наш подход может быть применен к любому визуальному энкодеру, что позволяет пролить свет на внутреннюю структуру его пространства признаков. Код и веса моделей для воспроизведения экспериментов доступны на GitHub.
English
Vision encoders are increasingly used in modern applications, from
vision-only models to multimodal systems such as vision-language models.
Despite their remarkable success, it remains unclear how these architectures
represent features internally. Here, we propose a novel approach for
interpreting vision features via image reconstruction. We compare two related
model families, SigLIP and SigLIP2, which differ only in their training
objective, and show that encoders pre-trained on image-based tasks retain
significantly more image information than those trained on non-image tasks such
as contrastive learning. We further apply our method to a range of vision
encoders, ranking them by the informativeness of their feature representations.
Finally, we demonstrate that manipulating the feature space yields predictable
changes in reconstructed images, revealing that orthogonal rotations (rather
than spatial transformations) control color encoding. Our approach can be
applied to any vision encoder, shedding light on the inner structure of its
feature space. The code and model weights to reproduce the experiments are
available in GitHub.