Kunnen LLM's CLIP misleiden? Benchmarken van de adversariële compositie van voorgetrainde multimodale representaties via tekstupdates
Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates
May 28, 2025
Auteurs: Jaewoo Ahn, Heeseung Yun, Dayoon Ko, Gunhee Kim
cs.AI
Samenvatting
Hoewel vooraf getrainde multimodale representaties (bijv. CLIP) indrukwekkende mogelijkheden hebben getoond, vertonen ze aanzienlijke compositionele kwetsbaarheden die leiden tot contra-intuïtieve beoordelingen. We introduceren Multimodal Adversarial Compositionality (MAC), een benchmark die grote taalmodellen (LLMs) benut om misleidende tekstvoorbeelden te genereren om deze kwetsbaarheden over verschillende modaliteiten te exploiteren en deze evalueert via zowel een op voorbeelden gebaseerd aanvalsuccespercentage als een op groepen gebaseerde entropie-gestuurde diversiteit. Om zero-shot methoden te verbeteren, stellen we een zelf-trainingsbenadering voor die gebruikmaakt van rejection-sampling fine-tuning met diversiteit-bevorderende filtering, wat zowel het aanvalsuccespercentage als de voorbeelddiversiteit verbetert. Met kleinere taalmodellen zoals Llama-3.1-8B toont onze benadering superieure prestaties in het blootleggen van compositionele kwetsbaarheden over verschillende multimodale representaties, waaronder afbeeldingen, video's en audio.
English
While pre-trained multimodal representations (e.g., CLIP) have shown
impressive capabilities, they exhibit significant compositional vulnerabilities
leading to counterintuitive judgments. We introduce Multimodal Adversarial
Compositionality (MAC), a benchmark that leverages large language models (LLMs)
to generate deceptive text samples to exploit these vulnerabilities across
different modalities and evaluates them through both sample-wise attack success
rate and group-wise entropy-based diversity. To improve zero-shot methods, we
propose a self-training approach that leverages rejection-sampling fine-tuning
with diversity-promoting filtering, which enhances both attack success rate and
sample diversity. Using smaller language models like Llama-3.1-8B, our approach
demonstrates superior performance in revealing compositional vulnerabilities
across various multimodal representations, including images, videos, and
audios.