ChatPaper.aiChatPaper

I Modelli Linguistici di Grandi Dimensioni Possono Ingannare CLIP? Benchmarking della Composizionalità Adversarial delle Rappresentazioni Multimodali Pre-addestrate tramite Aggiornamenti Testuali

Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates

May 28, 2025
Autori: Jaewoo Ahn, Heeseung Yun, Dayoon Ko, Gunhee Kim
cs.AI

Abstract

Sebbene le rappresentazioni multimodali pre-addestrate (ad esempio, CLIP) abbiano dimostrato capacità impressionanti, presentano significative vulnerabilità composizionali che portano a giudizi controintuitivi. Introduciamo Multimodal Adversarial Compositionality (MAC), un benchmark che sfrutta i grandi modelli linguistici (LLM) per generare campioni di testo ingannevoli al fine di sfruttare queste vulnerabilità attraverso diverse modalità e le valuta sia attraverso il tasso di successo degli attacchi a livello di campione che attraverso la diversità basata sull'entropia a livello di gruppo. Per migliorare i metodi zero-shot, proponiamo un approccio di auto-addestramento che utilizza il fine-tuning con campionamento di rifiuto e filtraggio che promuove la diversità, migliorando sia il tasso di successo degli attacchi che la diversità dei campioni. Utilizzando modelli linguistici più piccoli come Llama-3.1-8B, il nostro approccio dimostra prestazioni superiori nel rivelare vulnerabilità composizionali in varie rappresentazioni multimodali, incluse immagini, video e audio.
English
While pre-trained multimodal representations (e.g., CLIP) have shown impressive capabilities, they exhibit significant compositional vulnerabilities leading to counterintuitive judgments. We introduce Multimodal Adversarial Compositionality (MAC), a benchmark that leverages large language models (LLMs) to generate deceptive text samples to exploit these vulnerabilities across different modalities and evaluates them through both sample-wise attack success rate and group-wise entropy-based diversity. To improve zero-shot methods, we propose a self-training approach that leverages rejection-sampling fine-tuning with diversity-promoting filtering, which enhances both attack success rate and sample diversity. Using smaller language models like Llama-3.1-8B, our approach demonstrates superior performance in revealing compositional vulnerabilities across various multimodal representations, including images, videos, and audios.
PDF44May 30, 2025