Могут ли крупные языковые модели обмануть CLIP? Бенчмаркинг адверсарной композиционности предобученных мультимодальных представлений через обновления текста
Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates
May 28, 2025
Авторы: Jaewoo Ahn, Heeseung Yun, Dayoon Ko, Gunhee Kim
cs.AI
Аннотация
Хотя предобученные мультимодальные представления (например, CLIP) демонстрируют впечатляющие возможности, они проявляют значительные уязвимости в композиционности, что приводит к неинтуитивным суждениям. Мы представляем Multimodal Adversarial Compositionality (MAC) — эталонный набор, который использует большие языковые модели (LLM) для генерации обманчивых текстовых примеров, чтобы эксплуатировать эти уязвимости в различных модальностях, и оценивает их как через показатель успешности атак на уровне отдельных примеров, так и через групповое разнообразие на основе энтропии. Для улучшения методов zero-shot мы предлагаем подход самообучения, который использует тонкую настройку с отбором по отклонению и фильтрацией, способствующей разнообразию, что повышает как успешность атак, так и разнообразие примеров. Используя меньшие языковые модели, такие как Llama-3.1-8B, наш подход демонстрирует превосходную производительность в выявлении композиционных уязвимостей в различных мультимодальных представлениях, включая изображения, видео и аудио.
English
While pre-trained multimodal representations (e.g., CLIP) have shown
impressive capabilities, they exhibit significant compositional vulnerabilities
leading to counterintuitive judgments. We introduce Multimodal Adversarial
Compositionality (MAC), a benchmark that leverages large language models (LLMs)
to generate deceptive text samples to exploit these vulnerabilities across
different modalities and evaluates them through both sample-wise attack success
rate and group-wise entropy-based diversity. To improve zero-shot methods, we
propose a self-training approach that leverages rejection-sampling fine-tuning
with diversity-promoting filtering, which enhances both attack success rate and
sample diversity. Using smaller language models like Llama-3.1-8B, our approach
demonstrates superior performance in revealing compositional vulnerabilities
across various multimodal representations, including images, videos, and
audios.Summary
AI-Generated Summary