Обнаружение загрязнения данных для визуально-языковых моделей с помощью мультимодальной семантической пертурбации
Contamination Detection for VLMs using Multi-Modal Semantic Perturbation
November 5, 2025
Авторы: Jaden Park, Mu Cai, Feng Yao, Jingbo Shang, Soochahn Lee, Yong Jae Lee
cs.AI
Аннотация
Последние достижения в области визуально-языковых моделей (VLM) позволили достичь рекордных показателей на множестве бенчмарков. Однако использование интернет-масштабных, часто проприетарных, корпусов для предварительного обучения вызывает серьёзную озабоченность как у разработчиков, так и у пользователей: завышение производительности из-за утечки тестовых данных. В то время как предыдущие работы предлагали стратегии смягчения этой проблемы, такие как очистка данных предварительного обучения и редизайн бенчмарков для LLM, комплементарное направление — разработка методов обнаружения загрязнённых VLM — остаётся недостаточно изученным. Чтобы восполнить этот пробел, мы намеренно загрязняем модели VLM с открытым исходным кодом на популярных бенчмарках и показываем, что существующие подходы к обнаружению либо полностью не справляются, либо демонстрируют нестабильное поведение. Затем мы предлагаем новый простой, но эффективный метод обнаружения, основанный на мультимодальном семантическом возмущении, демонстрируя, что загрязнённые модели не способны к обобщению в условиях контролируемых возмущений. Наконец, мы проверяем наш подход на множестве реалистичных стратегий загрязнения, подтверждая его устойчивость и эффективность. Код и возмущённый набор данных будут опубликованы в открытом доступе.
English
Recent advances in Vision-Language Models (VLMs) have achieved
state-of-the-art performance on numerous benchmark tasks. However, the use of
internet-scale, often proprietary, pretraining corpora raises a critical
concern for both practitioners and users: inflated performance due to test-set
leakage. While prior works have proposed mitigation strategies such as
decontamination of pretraining data and benchmark redesign for LLMs, the
complementary direction of developing detection methods for contaminated VLMs
remains underexplored. To address this gap, we deliberately contaminate
open-source VLMs on popular benchmarks and show that existing detection
approaches either fail outright or exhibit inconsistent behavior. We then
propose a novel simple yet effective detection method based on multi-modal
semantic perturbation, demonstrating that contaminated models fail to
generalize under controlled perturbations. Finally, we validate our approach
across multiple realistic contamination strategies, confirming its robustness
and effectiveness. The code and perturbed dataset will be released publicly.