ChatPaper.aiChatPaper

Kunnen LLM's CLIP misleiden? Benchmarken van de adversariële compositie van voorgetrainde multimodale representaties via tekstupdates

Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates

May 28, 2025
Auteurs: Jaewoo Ahn, Heeseung Yun, Dayoon Ko, Gunhee Kim
cs.AI

Samenvatting

Hoewel vooraf getrainde multimodale representaties (bijv. CLIP) indrukwekkende mogelijkheden hebben getoond, vertonen ze aanzienlijke compositionele kwetsbaarheden die leiden tot contra-intuïtieve beoordelingen. We introduceren Multimodal Adversarial Compositionality (MAC), een benchmark die grote taalmodellen (LLMs) benut om misleidende tekstvoorbeelden te genereren om deze kwetsbaarheden over verschillende modaliteiten te exploiteren en deze evalueert via zowel een op voorbeelden gebaseerd aanvalsuccespercentage als een op groepen gebaseerde entropie-gestuurde diversiteit. Om zero-shot methoden te verbeteren, stellen we een zelf-trainingsbenadering voor die gebruikmaakt van rejection-sampling fine-tuning met diversiteit-bevorderende filtering, wat zowel het aanvalsuccespercentage als de voorbeelddiversiteit verbetert. Met kleinere taalmodellen zoals Llama-3.1-8B toont onze benadering superieure prestaties in het blootleggen van compositionele kwetsbaarheden over verschillende multimodale representaties, waaronder afbeeldingen, video's en audio.
English
While pre-trained multimodal representations (e.g., CLIP) have shown impressive capabilities, they exhibit significant compositional vulnerabilities leading to counterintuitive judgments. We introduce Multimodal Adversarial Compositionality (MAC), a benchmark that leverages large language models (LLMs) to generate deceptive text samples to exploit these vulnerabilities across different modalities and evaluates them through both sample-wise attack success rate and group-wise entropy-based diversity. To improve zero-shot methods, we propose a self-training approach that leverages rejection-sampling fine-tuning with diversity-promoting filtering, which enhances both attack success rate and sample diversity. Using smaller language models like Llama-3.1-8B, our approach demonstrates superior performance in revealing compositional vulnerabilities across various multimodal representations, including images, videos, and audios.
PDF34May 30, 2025