Können LLMs CLIP täuschen? Benchmarking der adversen Kompositionalität vortrainierter multimodaler Repräsentationen durch Textaktualisierungen

papers.abstract

Während vortrainierte multimodale Repräsentationen (z.B. CLIP) beeindruckende Fähigkeiten gezeigt haben, weisen sie signifikante kompositionelle Schwachstellen auf, die zu kontraintuitiven Urteilen führen. Wir stellen Multimodal Adversarial Compositionality (MAC) vor, einen Benchmark, der große Sprachmodelle (LLMs) nutzt, um trügerische Textproben zu generieren, um diese Schwachstellen über verschiedene Modalitäten hinweg auszunutzen, und bewertet sie sowohl durch die angriffsbezogene Erfolgsrate auf Probenebene als auch durch die gruppenbasierte Entropie-basierte Diversität. Um Zero-Shot-Methoden zu verbessern, schlagen wir einen Selbsttrainingsansatz vor, der Rejection-Sampling-Feintuning mit diversitätsfördernder Filterung kombiniert, was sowohl die Angriffserfolgsrate als auch die Probenvielfalt erhöht. Mit kleineren Sprachmodellen wie Llama-3.1-8B zeigt unser Ansatz eine überlegene Leistung bei der Aufdeckung kompositioneller Schwachstellen in verschiedenen multimodalen Repräsentationen, einschließlich Bildern, Videos und Audios.

English

While pre-trained multimodal representations (e.g., CLIP) have shown impressive capabilities, they exhibit significant compositional vulnerabilities leading to counterintuitive judgments. We introduce Multimodal Adversarial Compositionality (MAC), a benchmark that leverages large language models (LLMs) to generate deceptive text samples to exploit these vulnerabilities across different modalities and evaluates them through both sample-wise attack success rate and group-wise entropy-based diversity. To improve zero-shot methods, we propose a self-training approach that leverages rejection-sampling fine-tuning with diversity-promoting filtering, which enhances both attack success rate and sample diversity. Using smaller language models like Llama-3.1-8B, our approach demonstrates superior performance in revealing compositional vulnerabilities across various multimodal representations, including images, videos, and audios.

Können LLMs CLIP täuschen? Benchmarking der adversen Kompositionalität vortrainierter multimodaler Repräsentationen durch Textaktualisierungen

Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates

papers.abstract

Support