ChatPaper.aiChatPaper

시각 인코더의 처리 및 획득 흔적: CLIP은 당신의 카메라에 대해 무엇을 알고 있는가?

Processing and acquisition traces in visual encoders: What does CLIP know about your camera?

August 14, 2025
저자: Ryan Ramos, Vladan Stojnić, Giorgos Kordopatis-Zilos, Yuta Nakashima, Giorgos Tolias, Noa Garcia
cs.AI

초록

기존 연구에서는 특히 훈련 과정에서 접하지 못한 이미지 변환 및 손상에 대한 시각 인코더의 견고성을 분석해왔습니다. 이러한 변환이 발생할 경우, 테스트 시점에서 일종의 분포 변화를 초래하며 종종 성능 저하로 이어집니다. 주요 초점은 심각한 손상에 맞춰져 있었는데, 이러한 손상이 과도하게 적용되면 정확한 의미론적 예측에 필요한 유용한 신호를 왜곡시키는 경우가 많습니다. 우리는 이미지 획득 과정의 매개변수와 인간의 눈에는 미묘하거나 심지어 감지하기 어려운 변환을 분석함으로써 다른 관점을 제시합니다. 이러한 매개변수가 학습된 시각 표현에 체계적으로 인코딩되어 있으며 쉽게 복구될 수 있음을 발견했습니다. 더욱 놀라운 점은 이러한 요소가 의미론적 예측에 긍정적이거나 부정적인 심오한 영향을 미칠 수 있다는 것입니다. 이러한 효과는 의미 레이블과 이러한 획득 기반 또는 처리 기반 레이블 간에 강한 상관관계 또는 반대 상관관계가 있는지 여부에 따라 달라집니다. 우리의 코드와 데이터는 https://github.com/ryan-caesar-ramos/visual-encoder-traces에서 확인할 수 있습니다.
English
Prior work has analyzed the robustness of visual encoders to image transformations and corruptions, particularly in cases where such alterations are not seen during training. When this occurs, they introduce a form of distribution shift at test time, often leading to performance degradation. The primary focus has been on severe corruptions that, when applied aggressively, distort useful signals necessary for accurate semantic predictions. We take a different perspective by analyzing parameters of the image acquisition process and transformations that may be subtle or even imperceptible to the human eye. We find that such parameters are systematically encoded in the learned visual representations and can be easily recovered. More strikingly, their presence can have a profound impact, either positively or negatively, on semantic predictions. This effect depends on whether there is a strong correlation or anti-correlation between semantic labels and these acquisition-based or processing-based labels. Our code and data are available at: https://github.com/ryan-caesar-ramos/visual-encoder-traces
PDF42August 15, 2025