¿Pueden los LLM engañar a CLIP? Evaluación comparativa de la composicionalidad adversaria en representaciones multimodales preentrenadas mediante actualizaciones de texto
Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates
May 28, 2025
Autores: Jaewoo Ahn, Heeseung Yun, Dayoon Ko, Gunhee Kim
cs.AI
Resumen
Si bien las representaciones multimodales preentrenadas (por ejemplo, CLIP) han mostrado capacidades impresionantes, exhiben vulnerabilidades composicionales significativas que conducen a juicios contraintuitivos. Introducimos Composición Adversarial Multimodal (MAC, por sus siglas en inglés), un punto de referencia que aprovecha los modelos de lenguaje de gran escala (LLMs) para generar muestras de texto engañosas que explotan estas vulnerabilidades en diferentes modalidades y las evalúa tanto mediante la tasa de éxito del ataque por muestra como mediante la diversidad basada en entropía a nivel de grupo. Para mejorar los métodos de cero disparos, proponemos un enfoque de autoentrenamiento que utiliza un ajuste fino por muestreo de rechazo con filtrado que promueve la diversidad, lo que mejora tanto la tasa de éxito del ataque como la diversidad de las muestras. Utilizando modelos de lenguaje más pequeños como Llama-3.1-8B, nuestro enfoque demuestra un rendimiento superior al revelar vulnerabilidades composicionales en diversas representaciones multimodales, incluyendo imágenes, videos y audios.
English
While pre-trained multimodal representations (e.g., CLIP) have shown
impressive capabilities, they exhibit significant compositional vulnerabilities
leading to counterintuitive judgments. We introduce Multimodal Adversarial
Compositionality (MAC), a benchmark that leverages large language models (LLMs)
to generate deceptive text samples to exploit these vulnerabilities across
different modalities and evaluates them through both sample-wise attack success
rate and group-wise entropy-based diversity. To improve zero-shot methods, we
propose a self-training approach that leverages rejection-sampling fine-tuning
with diversity-promoting filtering, which enhances both attack success rate and
sample diversity. Using smaller language models like Llama-3.1-8B, our approach
demonstrates superior performance in revealing compositional vulnerabilities
across various multimodal representations, including images, videos, and
audios.Summary
AI-Generated Summary