Os LLMs Podem Enganar o CLIP? Avaliando a Composicionalidade Adversarial de Representações Multimodais Pré-treinadas por meio de Atualizações de Texto
Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates
May 28, 2025
Autores: Jaewoo Ahn, Heeseung Yun, Dayoon Ko, Gunhee Kim
cs.AI
Resumo
Embora as representações multimodais pré-treinadas (por exemplo, CLIP) tenham demonstrado capacidades impressionantes, elas exibem vulnerabilidades composicionais significativas que levam a julgamentos contra-intuitivos. Introduzimos a Composicionalidade Adversarial Multimodal (MAC), um benchmark que aproveita modelos de linguagem de grande escala (LLMs) para gerar amostras de texto enganosas que exploram essas vulnerabilidades em diferentes modalidades e as avalia tanto pela taxa de sucesso de ataque por amostra quanto pela diversidade baseada em entropia por grupo. Para aprimorar métodos de zero-shot, propomos uma abordagem de auto-treinamento que utiliza ajuste fino por rejeição de amostras com filtragem que promove a diversidade, melhorando tanto a taxa de sucesso de ataque quanto a diversidade das amostras. Utilizando modelos de linguagem menores, como o Llama-3.1-8B, nossa abordagem demonstra desempenho superior em revelar vulnerabilidades composicionais em várias representações multimodais, incluindo imagens, vídeos e áudios.
English
While pre-trained multimodal representations (e.g., CLIP) have shown
impressive capabilities, they exhibit significant compositional vulnerabilities
leading to counterintuitive judgments. We introduce Multimodal Adversarial
Compositionality (MAC), a benchmark that leverages large language models (LLMs)
to generate deceptive text samples to exploit these vulnerabilities across
different modalities and evaluates them through both sample-wise attack success
rate and group-wise entropy-based diversity. To improve zero-shot methods, we
propose a self-training approach that leverages rejection-sampling fine-tuning
with diversity-promoting filtering, which enhances both attack success rate and
sample diversity. Using smaller language models like Llama-3.1-8B, our approach
demonstrates superior performance in revealing compositional vulnerabilities
across various multimodal representations, including images, videos, and
audios.