¿Pueden los LLM engañar a CLIP? Evaluación comparativa de la composicionalidad adversaria en representaciones multimodales preentrenadas mediante actualizaciones de texto

Resumen

Si bien las representaciones multimodales preentrenadas (por ejemplo, CLIP) han mostrado capacidades impresionantes, exhiben vulnerabilidades composicionales significativas que conducen a juicios contraintuitivos. Introducimos Composición Adversarial Multimodal (MAC, por sus siglas en inglés), un punto de referencia que aprovecha los modelos de lenguaje de gran escala (LLMs) para generar muestras de texto engañosas que explotan estas vulnerabilidades en diferentes modalidades y las evalúa tanto mediante la tasa de éxito del ataque por muestra como mediante la diversidad basada en entropía a nivel de grupo. Para mejorar los métodos de cero disparos, proponemos un enfoque de autoentrenamiento que utiliza un ajuste fino por muestreo de rechazo con filtrado que promueve la diversidad, lo que mejora tanto la tasa de éxito del ataque como la diversidad de las muestras. Utilizando modelos de lenguaje más pequeños como Llama-3.1-8B, nuestro enfoque demuestra un rendimiento superior al revelar vulnerabilidades composicionales en diversas representaciones multimodales, incluyendo imágenes, videos y audios.

English

While pre-trained multimodal representations (e.g., CLIP) have shown impressive capabilities, they exhibit significant compositional vulnerabilities leading to counterintuitive judgments. We introduce Multimodal Adversarial Compositionality (MAC), a benchmark that leverages large language models (LLMs) to generate deceptive text samples to exploit these vulnerabilities across different modalities and evaluates them through both sample-wise attack success rate and group-wise entropy-based diversity. To improve zero-shot methods, we propose a self-training approach that leverages rejection-sampling fine-tuning with diversity-promoting filtering, which enhances both attack success rate and sample diversity. Using smaller language models like Llama-3.1-8B, our approach demonstrates superior performance in revealing compositional vulnerabilities across various multimodal representations, including images, videos, and audios.

¿Pueden los LLM engañar a CLIP? Evaluación comparativa de la composicionalidad adversaria en representaciones multimodales preentrenadas mediante actualizaciones de texto

Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates

Resumen

Support