Können LLMs CLIP täuschen? Benchmarking der adversen Kompositionalität vortrainierter multimodaler Repräsentationen durch Textaktualisierungen
Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates
May 28, 2025
Autoren: Jaewoo Ahn, Heeseung Yun, Dayoon Ko, Gunhee Kim
cs.AI
Zusammenfassung
Während vortrainierte multimodale Repräsentationen (z.B. CLIP) beeindruckende Fähigkeiten gezeigt haben, weisen sie signifikante kompositionelle Schwachstellen auf, die zu kontraintuitiven Urteilen führen. Wir stellen Multimodal Adversarial Compositionality (MAC) vor, einen Benchmark, der große Sprachmodelle (LLMs) nutzt, um trügerische Textproben zu generieren, um diese Schwachstellen über verschiedene Modalitäten hinweg auszunutzen, und bewertet sie sowohl durch die angriffsbezogene Erfolgsrate auf Probenebene als auch durch die gruppenbasierte Entropie-basierte Diversität. Um Zero-Shot-Methoden zu verbessern, schlagen wir einen Selbsttrainingsansatz vor, der Rejection-Sampling-Feintuning mit diversitätsfördernder Filterung kombiniert, was sowohl die Angriffserfolgsrate als auch die Probenvielfalt erhöht. Mit kleineren Sprachmodellen wie Llama-3.1-8B zeigt unser Ansatz eine überlegene Leistung bei der Aufdeckung kompositioneller Schwachstellen in verschiedenen multimodalen Repräsentationen, einschließlich Bildern, Videos und Audios.
English
While pre-trained multimodal representations (e.g., CLIP) have shown
impressive capabilities, they exhibit significant compositional vulnerabilities
leading to counterintuitive judgments. We introduce Multimodal Adversarial
Compositionality (MAC), a benchmark that leverages large language models (LLMs)
to generate deceptive text samples to exploit these vulnerabilities across
different modalities and evaluates them through both sample-wise attack success
rate and group-wise entropy-based diversity. To improve zero-shot methods, we
propose a self-training approach that leverages rejection-sampling fine-tuning
with diversity-promoting filtering, which enhances both attack success rate and
sample diversity. Using smaller language models like Llama-3.1-8B, our approach
demonstrates superior performance in revealing compositional vulnerabilities
across various multimodal representations, including images, videos, and
audios.Summary
AI-Generated Summary