Detecção de Contaminação em VLMs por Meio de Perturbação Semântica Multimodal
Contamination Detection for VLMs using Multi-Modal Semantic Perturbation
November 5, 2025
Autores: Jaden Park, Mu Cai, Feng Yao, Jingbo Shang, Soochahn Lee, Yong Jae Lee
cs.AI
Resumo
Os recentes avanços em Modelos de Visão e Linguagem (VLMs) alcançaram desempenho de ponta em inúmeras tarefas de referência. No entanto, o uso de corpora de pré-treinamento em escala de internet, muitas vezes proprietários, levanta uma preocupação crítica para profissionais e utilizadores: a inflação do desempenho devido ao vazamento do conjunto de teste. Embora trabalhos anteriores tenham proposto estratégias de mitigação, como a descontaminação de dados de pré-treinamento e o redesenho de benchmarks para LLMs, a direção complementar de desenvolver métodos de deteção para VLMs contaminados permanece pouco explorada. Para colmatar esta lacuna, contaminamos deliberadamente VLMs de código aberto em benchmarks populares e mostramos que as abordagens de deteção existentes falham completamente ou exibem comportamento inconsistente. Em seguida, propomos um novo método de deteção simples, mas eficaz, baseado em perturbação semântica multimodal, demonstrando que modelos contaminados não conseguem generalizar sob perturbações controladas. Finalmente, validamos a nossa abordagem em múltiplas estratégias de contaminação realistas, confirmando a sua robustez e eficácia. O código e o conjunto de dados perturbado serão disponibilizados publicamente.
English
Recent advances in Vision-Language Models (VLMs) have achieved
state-of-the-art performance on numerous benchmark tasks. However, the use of
internet-scale, often proprietary, pretraining corpora raises a critical
concern for both practitioners and users: inflated performance due to test-set
leakage. While prior works have proposed mitigation strategies such as
decontamination of pretraining data and benchmark redesign for LLMs, the
complementary direction of developing detection methods for contaminated VLMs
remains underexplored. To address this gap, we deliberately contaminate
open-source VLMs on popular benchmarks and show that existing detection
approaches either fail outright or exhibit inconsistent behavior. We then
propose a novel simple yet effective detection method based on multi-modal
semantic perturbation, demonstrating that contaminated models fail to
generalize under controlled perturbations. Finally, we validate our approach
across multiple realistic contamination strategies, confirming its robustness
and effectiveness. The code and perturbed dataset will be released publicly.