ChatPaper.aiChatPaper

Traces de traitement et d'acquisition dans les encodeurs visuels : Que sait CLIP de votre appareil photo ?

Processing and acquisition traces in visual encoders: What does CLIP know about your camera?

August 14, 2025
papers.authors: Ryan Ramos, Vladan Stojnić, Giorgos Kordopatis-Zilos, Yuta Nakashima, Giorgos Tolias, Noa Garcia
cs.AI

papers.abstract

Les travaux antérieurs ont analysé la robustesse des encodeurs visuels face aux transformations et corruptions d'images, en particulier dans les cas où de telles altérations ne sont pas rencontrées pendant l'entraînement. Lorsque cela se produit, elles introduisent une forme de décalage de distribution au moment du test, entraînant souvent une dégradation des performances. L'accent principal a été mis sur les corruptions sévères qui, lorsqu'elles sont appliquées de manière agressive, déforment les signaux utiles nécessaires pour des prédictions sémantiques précises. Nous adoptons une perspective différente en analysant les paramètres du processus d'acquisition d'images et les transformations qui peuvent être subtiles, voire imperceptibles à l'œil humain. Nous constatons que ces paramètres sont systématiquement encodés dans les représentations visuelles apprises et peuvent être facilement récupérés. Plus frappant encore, leur présence peut avoir un impact profond, soit positif, soit négatif, sur les prédictions sémantiques. Cet effet dépend de l'existence d'une forte corrélation ou anti-corrélation entre les étiquettes sémantiques et ces étiquettes basées sur l'acquisition ou le traitement. Notre code et nos données sont disponibles à l'adresse suivante : https://github.com/ryan-caesar-ramos/visual-encoder-traces
English
Prior work has analyzed the robustness of visual encoders to image transformations and corruptions, particularly in cases where such alterations are not seen during training. When this occurs, they introduce a form of distribution shift at test time, often leading to performance degradation. The primary focus has been on severe corruptions that, when applied aggressively, distort useful signals necessary for accurate semantic predictions. We take a different perspective by analyzing parameters of the image acquisition process and transformations that may be subtle or even imperceptible to the human eye. We find that such parameters are systematically encoded in the learned visual representations and can be easily recovered. More strikingly, their presence can have a profound impact, either positively or negatively, on semantic predictions. This effect depends on whether there is a strong correlation or anti-correlation between semantic labels and these acquisition-based or processing-based labels. Our code and data are available at: https://github.com/ryan-caesar-ramos/visual-encoder-traces
PDF42August 15, 2025