ChatPaper.aiChatPaper

Tracce di elaborazione e acquisizione negli encoder visivi: cosa sa CLIP della tua fotocamera?

Processing and acquisition traces in visual encoders: What does CLIP know about your camera?

August 14, 2025
Autori: Ryan Ramos, Vladan Stojnić, Giorgos Kordopatis-Zilos, Yuta Nakashima, Giorgos Tolias, Noa Garcia
cs.AI

Abstract

La ricerca precedente ha analizzato la robustezza degli encoder visivi rispetto a trasformazioni e corruzioni delle immagini, in particolare nei casi in cui tali alterazioni non sono state osservate durante l'addestramento. Quando ciò si verifica, introducono una forma di spostamento della distribuzione al momento del test, spesso portando a un degrado delle prestazioni. L'attenzione principale è stata rivolta a corruzioni gravi che, se applicate in modo aggressivo, distorcono i segnali utili necessari per previsioni semantiche accurate. Noi adottiamo una prospettiva diversa, analizzando i parametri del processo di acquisizione delle immagini e le trasformazioni che possono essere sottili o addirittura impercettibili all'occhio umano. Scopriamo che tali parametri sono sistematicamente codificati nelle rappresentazioni visive apprese e possono essere facilmente recuperati. Ancora più sorprendentemente, la loro presenza può avere un impatto profondo, positivo o negativo, sulle previsioni semantiche. Questo effetto dipende dal fatto che ci sia una forte correlazione o anti-correlazione tra le etichette semantiche e queste etichette basate sull'acquisizione o sul processing. Il nostro codice e i dati sono disponibili all'indirizzo: https://github.com/ryan-caesar-ramos/visual-encoder-traces
English
Prior work has analyzed the robustness of visual encoders to image transformations and corruptions, particularly in cases where such alterations are not seen during training. When this occurs, they introduce a form of distribution shift at test time, often leading to performance degradation. The primary focus has been on severe corruptions that, when applied aggressively, distort useful signals necessary for accurate semantic predictions. We take a different perspective by analyzing parameters of the image acquisition process and transformations that may be subtle or even imperceptible to the human eye. We find that such parameters are systematically encoded in the learned visual representations and can be easily recovered. More strikingly, their presence can have a profound impact, either positively or negatively, on semantic predictions. This effect depends on whether there is a strong correlation or anti-correlation between semantic labels and these acquisition-based or processing-based labels. Our code and data are available at: https://github.com/ryan-caesar-ramos/visual-encoder-traces
PDF72August 15, 2025