Detección de Contaminación en VLM mediante Perturbación Semántica Multimodal
Contamination Detection for VLMs using Multi-Modal Semantic Perturbation
November 5, 2025
Autores: Jaden Park, Mu Cai, Feng Yao, Jingbo Shang, Soochahn Lee, Yong Jae Lee
cs.AI
Resumen
Los recientes avances en Modelos de Visión-Lenguaje (VLM) han logrado un rendimiento de vanguardia en numerosas tareas de evaluación comparativa. Sin embargo, el uso de corpus de preentrenamiento a escala de internet, a menudo propietarios, plantea una preocupación crítica tanto para profesionales como para usuarios: un rendimiento inflado debido a la filtración del conjunto de pruebas. Si bien trabajos anteriores han propuesto estrategias de mitigación, como la descontaminación de datos de preentrenamiento y el rediseño de benchmarks para LLMs, la dirección complementaria de desarrollar métodos de detección para VLMs contaminados sigue estando poco explorada. Para abordar esta brecha, contaminamos deliberadamente VLMs de código abierto en benchmarks populares y demostramos que los enfoques de detección existentes fallan por completo o exhiben un comportamiento inconsistente. Luego proponemos un novedoso método de detección simple pero efectivo basado en perturbación semántica multimodal, demostrando que los modelos contaminados no logran generalizar bajo perturbaciones controladas. Finalmente, validamos nuestro enfoque en múltiples estrategias de contaminación realistas, confirmando su robustez y efectividad. El código y el conjunto de datos perturbado se publicarán abiertamente.
English
Recent advances in Vision-Language Models (VLMs) have achieved
state-of-the-art performance on numerous benchmark tasks. However, the use of
internet-scale, often proprietary, pretraining corpora raises a critical
concern for both practitioners and users: inflated performance due to test-set
leakage. While prior works have proposed mitigation strategies such as
decontamination of pretraining data and benchmark redesign for LLMs, the
complementary direction of developing detection methods for contaminated VLMs
remains underexplored. To address this gap, we deliberately contaminate
open-source VLMs on popular benchmarks and show that existing detection
approaches either fail outright or exhibit inconsistent behavior. We then
propose a novel simple yet effective detection method based on multi-modal
semantic perturbation, demonstrating that contaminated models fail to
generalize under controlled perturbations. Finally, we validate our approach
across multiple realistic contamination strategies, confirming its robustness
and effectiveness. The code and perturbed dataset will be released publicly.