ChatPaper.aiChatPaper

¿Qué tan fácil es engañar a tus LLM multimodales? Un análisis empírico sobre indicaciones engañosas

How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts

February 20, 2024
Autores: Yusu Qian, Haotian Zhang, Yinfei Yang, Zhe Gan
cs.AI

Resumen

Los notables avances en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) no los han hecho inmunes a desafíos, particularmente en el contexto de manejar información engañosa en las indicaciones, lo que resulta en respuestas alucinadas bajo tales condiciones. Para evaluar cuantitativamente esta vulnerabilidad, presentamos MAD-Bench, un punto de referencia cuidadosamente seleccionado que contiene 850 muestras de prueba divididas en 6 categorías, como objetos inexistentes, conteo de objetos, relaciones espaciales y confusión visual. Proporcionamos un análisis exhaustivo de MLLMs populares, que van desde GPT-4V y Gemini-Pro hasta modelos de código abierto, como LLaVA-1.5 y CogVLM. Empíricamente, observamos brechas significativas en el rendimiento entre GPT-4V y otros modelos; y modelos previamente robustos ajustados por instrucciones, como LRV-Instruction y LLaVA-RLHF, no son efectivos en este nuevo punto de referencia. Mientras que GPT-4V logra un 75.02% de precisión en MAD-Bench, la precisión de cualquier otro modelo en nuestros experimentos oscila entre el 5% y el 35%. Además, proponemos un remedio que añade un párrafo adicional a las indicaciones engañosas para alentar a los modelos a pensar dos veces antes de responder la pregunta. Sorprendentemente, este método simple puede incluso duplicar la precisión; sin embargo, los números absolutos siguen siendo demasiado bajos para ser satisfactorios. Esperamos que MAD-Bench pueda servir como un punto de referencia valioso para estimular más investigaciones que mejoren la resistencia de los modelos frente a indicaciones engañosas.
English
The remarkable advancements in Multimodal Large Language Models (MLLMs) have not rendered them immune to challenges, particularly in the context of handling deceptive information in prompts, thus producing hallucinated responses under such conditions. To quantitatively assess this vulnerability, we present MAD-Bench, a carefully curated benchmark that contains 850 test samples divided into 6 categories, such as non-existent objects, count of objects, spatial relationship, and visual confusion. We provide a comprehensive analysis of popular MLLMs, ranging from GPT-4V, Gemini-Pro, to open-sourced models, such as LLaVA-1.5 and CogVLM. Empirically, we observe significant performance gaps between GPT-4V and other models; and previous robust instruction-tuned models, such as LRV-Instruction and LLaVA-RLHF, are not effective on this new benchmark. While GPT-4V achieves 75.02% accuracy on MAD-Bench, the accuracy of any other model in our experiments ranges from 5% to 35%. We further propose a remedy that adds an additional paragraph to the deceptive prompts to encourage models to think twice before answering the question. Surprisingly, this simple method can even double the accuracy; however, the absolute numbers are still too low to be satisfactory. We hope MAD-Bench can serve as a valuable benchmark to stimulate further research to enhance models' resilience against deceptive prompts.
PDF153December 15, 2024