Следы обработки и захвата в визуальных кодировщиках: Что знает CLIP о вашей камере?
Processing and acquisition traces in visual encoders: What does CLIP know about your camera?
August 14, 2025
Авторы: Ryan Ramos, Vladan Stojnić, Giorgos Kordopatis-Zilos, Yuta Nakashima, Giorgos Tolias, Noa Garcia
cs.AI
Аннотация
Предыдущие исследования анализировали устойчивость визуальных кодировщиков к преобразованиям и искажениям изображений, особенно в случаях, когда такие изменения не встречались во время обучения. Когда это происходит, они вызывают форму сдвига распределения на этапе тестирования, что часто приводит к снижению производительности. Основное внимание уделялось серьезным искажениям, которые при агрессивном применении искажают полезные сигналы, необходимые для точных семантических предсказаний.
Мы рассматриваем проблему с другой стороны, анализируя параметры процесса получения изображений и преобразования, которые могут быть незаметными или даже неразличимыми для человеческого глаза. Мы обнаруживаем, что такие параметры систематически кодируются в изученных визуальных представлениях и могут быть легко восстановлены. Более того, их присутствие может оказывать значительное влияние, как положительное, так и отрицательное, на семантические предсказания. Этот эффект зависит от того, существует ли сильная корреляция или антикорреляция между семантическими метками и метками, связанными с процессом получения или обработки изображений. Наш код и данные доступны по адресу: https://github.com/ryan-caesar-ramos/visual-encoder-traces.
English
Prior work has analyzed the robustness of visual encoders to image
transformations and corruptions, particularly in cases where such alterations
are not seen during training. When this occurs, they introduce a form of
distribution shift at test time, often leading to performance degradation. The
primary focus has been on severe corruptions that, when applied aggressively,
distort useful signals necessary for accurate semantic predictions.
We take a different perspective by analyzing parameters of the image
acquisition process and transformations that may be subtle or even
imperceptible to the human eye. We find that such parameters are systematically
encoded in the learned visual representations and can be easily recovered. More
strikingly, their presence can have a profound impact, either positively or
negatively, on semantic predictions. This effect depends on whether there is a
strong correlation or anti-correlation between semantic labels and these
acquisition-based or processing-based labels. Our code and data are available
at: https://github.com/ryan-caesar-ramos/visual-encoder-traces