Rastros de processamento e aquisição em codificadores visuais: O que o CLIP sabe sobre sua câmera?
Processing and acquisition traces in visual encoders: What does CLIP know about your camera?
August 14, 2025
Autores: Ryan Ramos, Vladan Stojnić, Giorgos Kordopatis-Zilos, Yuta Nakashima, Giorgos Tolias, Noa Garcia
cs.AI
Resumo
Trabalhos anteriores analisaram a robustez de codificadores visuais a transformações e corrupções de imagens, particularmente em casos onde tais alterações não são vistas durante o treinamento. Quando isso ocorre, elas introduzem uma forma de deslocamento de distribuição no momento do teste, frequentemente levando à degradação do desempenho. O foco principal tem sido em corrupções severas que, quando aplicadas de forma agressiva, distorcem sinais úteis necessários para previsões semânticas precisas.
Adotamos uma perspectiva diferente ao analisar parâmetros do processo de aquisição de imagens e transformações que podem ser sutis ou até mesmo imperceptíveis ao olho humano. Descobrimos que tais parâmetros são sistematicamente codificados nas representações visuais aprendidas e podem ser facilmente recuperados. Mais surpreendentemente, sua presença pode ter um impacto profundo, seja positivo ou negativo, nas previsões semânticas. Esse efeito depende de haver uma forte correlação ou anticorrelação entre rótulos semânticos e esses rótulos baseados em aquisição ou processamento. Nosso código e dados estão disponíveis em: https://github.com/ryan-caesar-ramos/visual-encoder-traces
English
Prior work has analyzed the robustness of visual encoders to image
transformations and corruptions, particularly in cases where such alterations
are not seen during training. When this occurs, they introduce a form of
distribution shift at test time, often leading to performance degradation. The
primary focus has been on severe corruptions that, when applied aggressively,
distort useful signals necessary for accurate semantic predictions.
We take a different perspective by analyzing parameters of the image
acquisition process and transformations that may be subtle or even
imperceptible to the human eye. We find that such parameters are systematically
encoded in the learned visual representations and can be easily recovered. More
strikingly, their presence can have a profound impact, either positively or
negatively, on semantic predictions. This effect depends on whether there is a
strong correlation or anti-correlation between semantic labels and these
acquisition-based or processing-based labels. Our code and data are available
at: https://github.com/ryan-caesar-ramos/visual-encoder-traces