視覚エンコーダにおける処理と取得の痕跡:CLIPはあなたのカメラについて何を知っているのか?
Processing and acquisition traces in visual encoders: What does CLIP know about your camera?
August 14, 2025
著者: Ryan Ramos, Vladan Stojnić, Giorgos Kordopatis-Zilos, Yuta Nakashima, Giorgos Tolias, Noa Garcia
cs.AI
要旨
先行研究では、特に訓練時に見られない画像変換や劣化に対する視覚エンコーダの頑健性が分析されてきた。このような変換が生じると、テスト時に一種の分布シフトが導入され、しばしば性能の低下を引き起こす。主な焦点は、積極的に適用されると正確な意味予測に必要な有用な信号を歪めるような深刻な劣化に当てられてきた。
我々は異なる視点から、画像取得プロセスのパラメータや、人間の目には微妙あるいは認識さえできないような変換を分析する。その結果、このようなパラメータが学習された視覚表現に体系的にエンコードされ、容易に復元できることがわかった。さらに驚くべきことに、これらの存在は意味予測にプラスまたはマイナスの深刻な影響を及ぼす可能性がある。この効果は、意味ラベルとこれらの取得ベースまたは処理ベースのラベルの間に強い相関または逆相関があるかどうかに依存する。我々のコードとデータは以下で公開されている: https://github.com/ryan-caesar-ramos/visual-encoder-traces
English
Prior work has analyzed the robustness of visual encoders to image
transformations and corruptions, particularly in cases where such alterations
are not seen during training. When this occurs, they introduce a form of
distribution shift at test time, often leading to performance degradation. The
primary focus has been on severe corruptions that, when applied aggressively,
distort useful signals necessary for accurate semantic predictions.
We take a different perspective by analyzing parameters of the image
acquisition process and transformations that may be subtle or even
imperceptible to the human eye. We find that such parameters are systematically
encoded in the learned visual representations and can be easily recovered. More
strikingly, their presence can have a profound impact, either positively or
negatively, on semantic predictions. This effect depends on whether there is a
strong correlation or anti-correlation between semantic labels and these
acquisition-based or processing-based labels. Our code and data are available
at: https://github.com/ryan-caesar-ramos/visual-encoder-traces