ChatPaper.aiChatPaper

Verwerkings- en acquisitiesporen in visuele encoders: Wat weet CLIP over jouw camera?

Processing and acquisition traces in visual encoders: What does CLIP know about your camera?

August 14, 2025
Auteurs: Ryan Ramos, Vladan Stojnić, Giorgos Kordopatis-Zilos, Yuta Nakashima, Giorgos Tolias, Noa Garcia
cs.AI

Samenvatting

Eerder onderzoek heeft de robuustheid van visuele encoders geanalyseerd ten opzichte van beeldtransformaties en corrupties, met name in gevallen waarin dergelijke aanpassingen niet tijdens de training zijn gezien. Wanneer dit gebeurt, introduceren ze een vorm van distributieverschuiving tijdens de testfase, wat vaak leidt tot prestatievermindering. De primaire focus lag hierbij op ernstige corrupties die, wanneer ze agressief worden toegepast, nuttige signalen vervormen die nodig zijn voor nauwkeurige semantische voorspellingen. Wij nemen een ander perspectief door parameters van het beeldverwervingsproces en transformaties te analyseren die subtiel of zelfs onmerkbaar kunnen zijn voor het menselijk oog. We ontdekken dat dergelijke parameters systematisch worden gecodeerd in de geleerde visuele representaties en eenvoudig kunnen worden hersteld. Nog opvallender is dat hun aanwezigheid een diepgaande impact kan hebben, zowel positief als negatief, op semantische voorspellingen. Dit effect hangt af van of er een sterke correlatie of anti-correlatie bestaat tussen semantische labels en deze op verwerving of verwerking gebaseerde labels. Onze code en gegevens zijn beschikbaar op: https://github.com/ryan-caesar-ramos/visual-encoder-traces
English
Prior work has analyzed the robustness of visual encoders to image transformations and corruptions, particularly in cases where such alterations are not seen during training. When this occurs, they introduce a form of distribution shift at test time, often leading to performance degradation. The primary focus has been on severe corruptions that, when applied aggressively, distort useful signals necessary for accurate semantic predictions. We take a different perspective by analyzing parameters of the image acquisition process and transformations that may be subtle or even imperceptible to the human eye. We find that such parameters are systematically encoded in the learned visual representations and can be easily recovered. More strikingly, their presence can have a profound impact, either positively or negatively, on semantic predictions. This effect depends on whether there is a strong correlation or anti-correlation between semantic labels and these acquisition-based or processing-based labels. Our code and data are available at: https://github.com/ryan-caesar-ramos/visual-encoder-traces
PDF72August 15, 2025