다중 모드 의미론적 섭동을 활용한 VLM 오염도 탐지
Contamination Detection for VLMs using Multi-Modal Semantic Perturbation
November 5, 2025
저자: Jaden Park, Mu Cai, Feng Yao, Jingbo Shang, Soochahn Lee, Yong Jae Lee
cs.AI
초록
비전-언어 모델(VLM)의 최근 발전은 수많은 벤치마크 과제에서 최첨단 성능을 달성해왔습니다. 그러나 인터넷 규모의, 종종 독점적인 사전 학습 코퍼스 사용은 실무자와 사용자 모두에게 시험 세트 유출로 인한 성능 과대 평가라는 중요한 우려를 제기합니다. 선행 연구에서는 LLM을 위한 사전 학습 데이터 정제 및 벤치마크 재설계와 같은 완화 전략을 제안했지만, 오염된 VLM을 탐지하는 방법 개발이라는 상호 보완적인 방향은 아직 충분히 연구되지 않았습니다. 이러한 격차를 해결하기 위해 우리는 인기 벤치마크에 대해 오픈소스 VLM을 의도적으로 오염시킨 후, 기존 탐지 방법들이 완전히 실패하거나 일관되지 않은 동작을 보인다는 점을 입증합니다. 이어서 우리는 다중 모달 의미론적 섭동에 기반한 새롭고 간단하지만 효과적인 탐지 방법을 제안하며, 오염된 모델들이 통제된 섭동 하에서는 일반화에 실패함을 보여줍니다. 마지막으로, 여러 현실적인 오염 전략에 걸쳐 우리 접근법을 검증하여 그 강건성과 효과성을 확인합니다. 코드와 섭동이 가해진 데이터세트는 공개될 예정입니다.
English
Recent advances in Vision-Language Models (VLMs) have achieved
state-of-the-art performance on numerous benchmark tasks. However, the use of
internet-scale, often proprietary, pretraining corpora raises a critical
concern for both practitioners and users: inflated performance due to test-set
leakage. While prior works have proposed mitigation strategies such as
decontamination of pretraining data and benchmark redesign for LLMs, the
complementary direction of developing detection methods for contaminated VLMs
remains underexplored. To address this gap, we deliberately contaminate
open-source VLMs on popular benchmarks and show that existing detection
approaches either fail outright or exhibit inconsistent behavior. We then
propose a novel simple yet effective detection method based on multi-modal
semantic perturbation, demonstrating that contaminated models fail to
generalize under controlled perturbations. Finally, we validate our approach
across multiple realistic contamination strategies, confirming its robustness
and effectiveness. The code and perturbed dataset will be released publicly.