À quel point est-il facile de tromper vos modèles de langage multimodaux ? Une analyse empirique sur les invites trompeuses

papers.abstract

Les avancées remarquables des Modèles de Langage Multimodaux de Grande Taille (MLLMs) ne les ont pas rendus invulnérables aux défis, notamment dans le contexte de la gestion d'informations trompeuses dans les prompts, ce qui entraîne des réponses hallucinées dans de telles conditions. Pour évaluer quantitativement cette vulnérabilité, nous présentons MAD-Bench, un benchmark soigneusement conçu contenant 850 échantillons de test répartis en 6 catégories, telles que les objets inexistants, le décompte d'objets, les relations spatiales et les confusions visuelles. Nous fournissons une analyse approfondie des MLLMs populaires, allant de GPT-4V et Gemini-Pro à des modèles open-source comme LLaVA-1.5 et CogVLM. Empiriquement, nous observons des écarts de performance significatifs entre GPT-4V et les autres modèles ; et les modèles précédemment robustes, ajustés par instruction, tels que LRV-Instruction et LLaVA-RLHF, ne sont pas efficaces sur ce nouveau benchmark. Alors que GPT-4V atteint une précision de 75,02 % sur MAD-Bench, la précision de tout autre modèle dans nos expériences varie de 5 % à 35 %. Nous proposons en outre un remède qui consiste à ajouter un paragraphe supplémentaire aux prompts trompeurs pour encourager les modèles à réfléchir à deux fois avant de répondre à la question. Étonnamment, cette méthode simple peut même doubler la précision ; cependant, les chiffres absolus restent trop faibles pour être satisfaisants. Nous espérons que MAD-Bench pourra servir de benchmark précieux pour stimuler des recherches supplémentaires afin d'améliorer la résilience des modèles face aux prompts trompeurs.

English

The remarkable advancements in Multimodal Large Language Models (MLLMs) have not rendered them immune to challenges, particularly in the context of handling deceptive information in prompts, thus producing hallucinated responses under such conditions. To quantitatively assess this vulnerability, we present MAD-Bench, a carefully curated benchmark that contains 850 test samples divided into 6 categories, such as non-existent objects, count of objects, spatial relationship, and visual confusion. We provide a comprehensive analysis of popular MLLMs, ranging from GPT-4V, Gemini-Pro, to open-sourced models, such as LLaVA-1.5 and CogVLM. Empirically, we observe significant performance gaps between GPT-4V and other models; and previous robust instruction-tuned models, such as LRV-Instruction and LLaVA-RLHF, are not effective on this new benchmark. While GPT-4V achieves 75.02% accuracy on MAD-Bench, the accuracy of any other model in our experiments ranges from 5% to 35%. We further propose a remedy that adds an additional paragraph to the deceptive prompts to encourage models to think twice before answering the question. Surprisingly, this simple method can even double the accuracy; however, the absolute numbers are still too low to be satisfactory. We hope MAD-Bench can serve as a valuable benchmark to stimulate further research to enhance models' resilience against deceptive prompts.

À quel point est-il facile de tromper vos modèles de langage multimodaux ? Une analyse empirique sur les invites trompeuses

How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts

papers.abstract

Support