Les modèles de langage de grande taille peuvent-ils tromper CLIP ? Évaluation de la compositionnalité antagoniste des représentations multimodales pré-entraînées via des mises à jour textuelles

papers.abstract

Bien que les représentations multimodales pré-entraînées (par exemple, CLIP) aient démontré des capacités impressionnantes, elles présentent des vulnérabilités compositionnelles significatives conduisant à des jugements contre-intuitifs. Nous introduisons Multimodal Adversarial Compositionality (MAC), un benchmark qui exploite les modèles de langage de grande taille (LLMs) pour générer des échantillons de texte trompeurs afin de mettre à profit ces vulnérabilités à travers différentes modalités, et les évalue à la fois par le taux de réussite des attaques par échantillon et par la diversité basée sur l'entropie au niveau du groupe. Pour améliorer les méthodes zero-shot, nous proposons une approche d'auto-apprentissage qui utilise un ajustement fin par rejet d'échantillons avec un filtrage favorisant la diversité, ce qui améliore à la fois le taux de réussite des attaques et la diversité des échantillons. En utilisant des modèles de langage plus petits comme Llama-3.1-8B, notre approche démontre une performance supérieure dans la révélation des vulnérabilités compositionnelles à travers diverses représentations multimodales, incluant les images, les vidéos et les audios.

English

While pre-trained multimodal representations (e.g., CLIP) have shown impressive capabilities, they exhibit significant compositional vulnerabilities leading to counterintuitive judgments. We introduce Multimodal Adversarial Compositionality (MAC), a benchmark that leverages large language models (LLMs) to generate deceptive text samples to exploit these vulnerabilities across different modalities and evaluates them through both sample-wise attack success rate and group-wise entropy-based diversity. To improve zero-shot methods, we propose a self-training approach that leverages rejection-sampling fine-tuning with diversity-promoting filtering, which enhances both attack success rate and sample diversity. Using smaller language models like Llama-3.1-8B, our approach demonstrates superior performance in revealing compositional vulnerabilities across various multimodal representations, including images, videos, and audios.

Les modèles de langage de grande taille peuvent-ils tromper CLIP ? Évaluation de la compositionnalité antagoniste des représentations multimodales pré-entraînées via des mises à jour textuelles

Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates

papers.abstract

Support