À quel point est-il facile de tromper vos modèles de langage multimodaux ? Une analyse empirique sur les invites trompeuses
How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts
February 20, 2024
Auteurs: Yusu Qian, Haotian Zhang, Yinfei Yang, Zhe Gan
cs.AI
Résumé
Les avancées remarquables des Modèles de Langage Multimodaux de Grande Taille (MLLMs) ne les ont pas rendus invulnérables aux défis, notamment dans le contexte de la gestion d'informations trompeuses dans les prompts, ce qui entraîne des réponses hallucinées dans de telles conditions. Pour évaluer quantitativement cette vulnérabilité, nous présentons MAD-Bench, un benchmark soigneusement conçu contenant 850 échantillons de test répartis en 6 catégories, telles que les objets inexistants, le décompte d'objets, les relations spatiales et les confusions visuelles. Nous fournissons une analyse approfondie des MLLMs populaires, allant de GPT-4V et Gemini-Pro à des modèles open-source comme LLaVA-1.5 et CogVLM. Empiriquement, nous observons des écarts de performance significatifs entre GPT-4V et les autres modèles ; et les modèles précédemment robustes, ajustés par instruction, tels que LRV-Instruction et LLaVA-RLHF, ne sont pas efficaces sur ce nouveau benchmark. Alors que GPT-4V atteint une précision de 75,02 % sur MAD-Bench, la précision de tout autre modèle dans nos expériences varie de 5 % à 35 %. Nous proposons en outre un remède qui consiste à ajouter un paragraphe supplémentaire aux prompts trompeurs pour encourager les modèles à réfléchir à deux fois avant de répondre à la question. Étonnamment, cette méthode simple peut même doubler la précision ; cependant, les chiffres absolus restent trop faibles pour être satisfaisants. Nous espérons que MAD-Bench pourra servir de benchmark précieux pour stimuler des recherches supplémentaires afin d'améliorer la résilience des modèles face aux prompts trompeurs.
English
The remarkable advancements in Multimodal Large Language Models (MLLMs) have
not rendered them immune to challenges, particularly in the context of handling
deceptive information in prompts, thus producing hallucinated responses under
such conditions. To quantitatively assess this vulnerability, we present
MAD-Bench, a carefully curated benchmark that contains 850 test samples divided
into 6 categories, such as non-existent objects, count of objects, spatial
relationship, and visual confusion. We provide a comprehensive analysis of
popular MLLMs, ranging from GPT-4V, Gemini-Pro, to open-sourced models, such as
LLaVA-1.5 and CogVLM. Empirically, we observe significant performance gaps
between GPT-4V and other models; and previous robust instruction-tuned models,
such as LRV-Instruction and LLaVA-RLHF, are not effective on this new
benchmark. While GPT-4V achieves 75.02% accuracy on MAD-Bench, the accuracy of
any other model in our experiments ranges from 5% to 35%. We further propose a
remedy that adds an additional paragraph to the deceptive prompts to encourage
models to think twice before answering the question. Surprisingly, this simple
method can even double the accuracy; however, the absolute numbers are still
too low to be satisfactory. We hope MAD-Bench can serve as a valuable benchmark
to stimulate further research to enhance models' resilience against deceptive
prompts.Summary
AI-Generated Summary