ChatPaper.aiChatPaper

Verarbeitungs- und Erfassungsspuren in visuellen Encodern: Was weiß CLIP über Ihre Kamera?

Processing and acquisition traces in visual encoders: What does CLIP know about your camera?

August 14, 2025
papers.authors: Ryan Ramos, Vladan Stojnić, Giorgos Kordopatis-Zilos, Yuta Nakashima, Giorgos Tolias, Noa Garcia
cs.AI

papers.abstract

Frühere Arbeiten haben die Robustheit visueller Encoder gegenüber Bildtransformationen und -verfälschungen analysiert, insbesondere in Fällen, in denen solche Veränderungen während des Trainings nicht vorkommen. Wenn dies geschieht, führen sie zu einer Form von Distributionsverschiebung zur Testzeit, was oft zu einer Leistungsverschlechterung führt. Der Hauptfokus lag dabei auf schwerwiegenden Verfälschungen, die, wenn sie aggressiv angewendet werden, nützliche Signale verzerren, die für präzise semantische Vorhersagen notwendig sind. Wir nehmen eine andere Perspektive ein, indem wir Parameter des Bildaufnahmeprozesses und Transformationen analysieren, die subtil oder sogar für das menschliche Auge nicht wahrnehmbar sein können. Wir stellen fest, dass solche Parameter systematisch in den gelernten visuellen Repräsentationen kodiert sind und leicht wiederhergestellt werden können. Noch bemerkenswerter ist, dass ihre Anwesenheit einen tiefgreifenden Einfluss, entweder positiv oder negativ, auf semantische Vorhersagen haben kann. Dieser Effekt hängt davon ab, ob es eine starke Korrelation oder Anti-Korrelation zwischen semantischen Labels und diesen aufnahme- oder verarbeitungsbasierten Labels gibt. Unser Code und unsere Daten sind verfügbar unter: https://github.com/ryan-caesar-ramos/visual-encoder-traces
English
Prior work has analyzed the robustness of visual encoders to image transformations and corruptions, particularly in cases where such alterations are not seen during training. When this occurs, they introduce a form of distribution shift at test time, often leading to performance degradation. The primary focus has been on severe corruptions that, when applied aggressively, distort useful signals necessary for accurate semantic predictions. We take a different perspective by analyzing parameters of the image acquisition process and transformations that may be subtle or even imperceptible to the human eye. We find that such parameters are systematically encoded in the learned visual representations and can be easily recovered. More strikingly, their presence can have a profound impact, either positively or negatively, on semantic predictions. This effect depends on whether there is a strong correlation or anti-correlation between semantic labels and these acquisition-based or processing-based labels. Our code and data are available at: https://github.com/ryan-caesar-ramos/visual-encoder-traces
PDF42August 15, 2025