Les modèles de langage de grande taille peuvent-ils tromper CLIP ? Évaluation de la compositionnalité antagoniste des représentations multimodales pré-entraînées via des mises à jour textuelles
Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates
May 28, 2025
Auteurs: Jaewoo Ahn, Heeseung Yun, Dayoon Ko, Gunhee Kim
cs.AI
Résumé
Bien que les représentations multimodales pré-entraînées (par exemple, CLIP) aient démontré des capacités impressionnantes, elles présentent des vulnérabilités compositionnelles significatives conduisant à des jugements contre-intuitifs. Nous introduisons Multimodal Adversarial Compositionality (MAC), un benchmark qui exploite les modèles de langage de grande taille (LLMs) pour générer des échantillons de texte trompeurs afin de mettre à profit ces vulnérabilités à travers différentes modalités, et les évalue à la fois par le taux de réussite des attaques par échantillon et par la diversité basée sur l'entropie au niveau du groupe. Pour améliorer les méthodes zero-shot, nous proposons une approche d'auto-apprentissage qui utilise un ajustement fin par rejet d'échantillons avec un filtrage favorisant la diversité, ce qui améliore à la fois le taux de réussite des attaques et la diversité des échantillons. En utilisant des modèles de langage plus petits comme Llama-3.1-8B, notre approche démontre une performance supérieure dans la révélation des vulnérabilités compositionnelles à travers diverses représentations multimodales, incluant les images, les vidéos et les audios.
English
While pre-trained multimodal representations (e.g., CLIP) have shown
impressive capabilities, they exhibit significant compositional vulnerabilities
leading to counterintuitive judgments. We introduce Multimodal Adversarial
Compositionality (MAC), a benchmark that leverages large language models (LLMs)
to generate deceptive text samples to exploit these vulnerabilities across
different modalities and evaluates them through both sample-wise attack success
rate and group-wise entropy-based diversity. To improve zero-shot methods, we
propose a self-training approach that leverages rejection-sampling fine-tuning
with diversity-promoting filtering, which enhances both attack success rate and
sample diversity. Using smaller language models like Llama-3.1-8B, our approach
demonstrates superior performance in revealing compositional vulnerabilities
across various multimodal representations, including images, videos, and
audios.Summary
AI-Generated Summary