マルチモーダル意味的摂動を用いたVLM汚染検出
Contamination Detection for VLMs using Multi-Modal Semantic Perturbation
November 5, 2025
著者: Jaden Park, Mu Cai, Feng Yao, Jingbo Shang, Soochahn Lee, Yong Jae Lee
cs.AI
要旨
視覚言語モデル(VLM)の近年の進展は、数多くのベンチマークタスクにおいて最先端の性能を達成している。しかし、インターネット規模の、しばしば非公開の事前学習コーパスを使用することは、実務家とユーザーの双方にとって重大な懸念を引き起こす。それは、テストセットの漏洩による過大評価された性能である。従来の研究では、事前学習データの浄化やLLMのためのベンチマーク再設計といった緩和策が提案されてきたが、汚染されたVLMを検出する手法の開発という補完的な方向性は、まだ十分に検討されていない。この問題に対処するため、我々は意図的にオープンソースのVLMを人気のあるベンチマークで汚染し、既存の検出アプローチが完全に失敗するか、一貫性のない挙動を示すことを明らかにする。次に、マルチモーダルな意味的摂動に基づく、新奇で簡潔かつ効果的な検出手法を提案し、汚染されたモデルが制御された摂動下では一般化に失敗することを示す。最後に、複数の現実的な汚染戦略にわたって本手法を検証し、その頑健性と有効性を確認する。コードと摂動を加えたデータセットは公開予定である。
English
Recent advances in Vision-Language Models (VLMs) have achieved
state-of-the-art performance on numerous benchmark tasks. However, the use of
internet-scale, often proprietary, pretraining corpora raises a critical
concern for both practitioners and users: inflated performance due to test-set
leakage. While prior works have proposed mitigation strategies such as
decontamination of pretraining data and benchmark redesign for LLMs, the
complementary direction of developing detection methods for contaminated VLMs
remains underexplored. To address this gap, we deliberately contaminate
open-source VLMs on popular benchmarks and show that existing detection
approaches either fail outright or exhibit inconsistent behavior. We then
propose a novel simple yet effective detection method based on multi-modal
semantic perturbation, demonstrating that contaminated models fail to
generalize under controlled perturbations. Finally, we validate our approach
across multiple realistic contamination strategies, confirming its robustness
and effectiveness. The code and perturbed dataset will be released publicly.