Detecção de Contaminação em VLMs por Meio de Perturbação Semântica Multimodal

Resumo

Os recentes avanços em Modelos de Visão e Linguagem (VLMs) alcançaram desempenho de ponta em inúmeras tarefas de referência. No entanto, o uso de corpora de pré-treinamento em escala de internet, muitas vezes proprietários, levanta uma preocupação crítica para profissionais e utilizadores: a inflação do desempenho devido ao vazamento do conjunto de teste. Embora trabalhos anteriores tenham proposto estratégias de mitigação, como a descontaminação de dados de pré-treinamento e o redesenho de benchmarks para LLMs, a direção complementar de desenvolver métodos de deteção para VLMs contaminados permanece pouco explorada. Para colmatar esta lacuna, contaminamos deliberadamente VLMs de código aberto em benchmarks populares e mostramos que as abordagens de deteção existentes falham completamente ou exibem comportamento inconsistente. Em seguida, propomos um novo método de deteção simples, mas eficaz, baseado em perturbação semântica multimodal, demonstrando que modelos contaminados não conseguem generalizar sob perturbações controladas. Finalmente, validamos a nossa abordagem em múltiplas estratégias de contaminação realistas, confirmando a sua robustez e eficácia. O código e o conjunto de dados perturbado serão disponibilizados publicamente.

English

Recent advances in Vision-Language Models (VLMs) have achieved state-of-the-art performance on numerous benchmark tasks. However, the use of internet-scale, often proprietary, pretraining corpora raises a critical concern for both practitioners and users: inflated performance due to test-set leakage. While prior works have proposed mitigation strategies such as decontamination of pretraining data and benchmark redesign for LLMs, the complementary direction of developing detection methods for contaminated VLMs remains underexplored. To address this gap, we deliberately contaminate open-source VLMs on popular benchmarks and show that existing detection approaches either fail outright or exhibit inconsistent behavior. We then propose a novel simple yet effective detection method based on multi-modal semantic perturbation, demonstrating that contaminated models fail to generalize under controlled perturbations. Finally, we validate our approach across multiple realistic contamination strategies, confirming its robustness and effectiveness. The code and perturbed dataset will be released publicly.

Detecção de Contaminação em VLMs por Meio de Perturbação Semântica Multimodal

Contamination Detection for VLMs using Multi-Modal Semantic Perturbation

Resumo

Support