ChatPaper.aiChatPaper

Huellas de procesamiento y adquisición en codificadores visuales: ¿Qué sabe CLIP sobre tu cámara?

Processing and acquisition traces in visual encoders: What does CLIP know about your camera?

August 14, 2025
Autores: Ryan Ramos, Vladan Stojnić, Giorgos Kordopatis-Zilos, Yuta Nakashima, Giorgos Tolias, Noa Garcia
cs.AI

Resumen

Trabajos previos han analizado la robustez de los codificadores visuales frente a transformaciones y corrupciones de imágenes, particularmente en casos donde dichas alteraciones no se han visto durante el entrenamiento. Cuando esto ocurre, introducen una forma de cambio de distribución en el momento de la prueba, lo que a menudo conduce a una degradación del rendimiento. El enfoque principal ha estado en corrupciones severas que, cuando se aplican de manera agresiva, distorsionan las señales útiles necesarias para predicciones semánticas precisas. Adoptamos una perspectiva diferente al analizar parámetros del proceso de adquisición de imágenes y transformaciones que pueden ser sutiles o incluso imperceptibles para el ojo humano. Descubrimos que dichos parámetros están sistemáticamente codificados en las representaciones visuales aprendidas y pueden recuperarse fácilmente. Más sorprendentemente, su presencia puede tener un impacto profundo, ya sea positivo o negativo, en las predicciones semánticas. Este efecto depende de si existe una fuerte correlación o anti-correlación entre las etiquetas semánticas y estas etiquetas basadas en la adquisición o el procesamiento. Nuestro código y datos están disponibles en: https://github.com/ryan-caesar-ramos/visual-encoder-traces
English
Prior work has analyzed the robustness of visual encoders to image transformations and corruptions, particularly in cases where such alterations are not seen during training. When this occurs, they introduce a form of distribution shift at test time, often leading to performance degradation. The primary focus has been on severe corruptions that, when applied aggressively, distort useful signals necessary for accurate semantic predictions. We take a different perspective by analyzing parameters of the image acquisition process and transformations that may be subtle or even imperceptible to the human eye. We find that such parameters are systematically encoded in the learned visual representations and can be easily recovered. More strikingly, their presence can have a profound impact, either positively or negatively, on semantic predictions. This effect depends on whether there is a strong correlation or anti-correlation between semantic labels and these acquisition-based or processing-based labels. Our code and data are available at: https://github.com/ryan-caesar-ramos/visual-encoder-traces
PDF42August 15, 2025