ChatPaper.aiChatPaper

Wie einfach ist es, Ihre multimodalen LLMs auszutricksen? Eine empirische Analyse zu trügerischen Prompts

How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts

February 20, 2024
papers.authors: Yusu Qian, Haotian Zhang, Yinfei Yang, Zhe Gan
cs.AI

papers.abstract

Die bemerkenswerten Fortschritte bei Multimodalen Großen Sprachmodellen (MLLMs) haben sie nicht immun gegen Herausforderungen gemacht, insbesondere im Umgang mit irreführenden Informationen in Prompts, was unter solchen Bedingungen zu halluzinierten Antworten führt. Um diese Anfälligkeit quantitativ zu bewerten, stellen wir MAD-Bench vor, einen sorgfältig kuratierten Benchmark, der 850 Testbeispiele in 6 Kategorien enthält, wie nicht existierende Objekte, Objektanzahl, räumliche Beziehungen und visuelle Verwirrung. Wir bieten eine umfassende Analyse populärer MLLMs, von GPT-4V und Gemini-Pro bis hin zu Open-Source-Modellen wie LLaVA-1.5 und CogVLM. Empirisch beobachten wir signifikante Leistungsunterschiede zwischen GPT-4V und anderen Modellen; und bisher robuste, instruktionsoptimierte Modelle wie LRV-Instruction und LLaVA-RLHF sind auf diesem neuen Benchmark nicht effektiv. Während GPT-4V eine Genauigkeit von 75,02 % auf MAD-Bench erreicht, liegt die Genauigkeit aller anderen Modelle in unseren Experimenten zwischen 5 % und 35 %. Wir schlagen weiterhin ein Mittel vor, das einen zusätzlichen Absatz zu den irreführenden Prompts hinzufügt, um die Modelle dazu zu ermutigen, zweimal nachzudenken, bevor sie die Frage beantworten. Überraschenderweise kann diese einfache Methode die Genauigkeit sogar verdoppeln; jedoch sind die absoluten Zahlen immer noch zu niedrig, um zufriedenstellend zu sein. Wir hoffen, dass MAD-Bench als wertvoller Benchmark dienen kann, um weitere Forschungen anzuregen, die die Widerstandsfähigkeit der Modelle gegen irreführende Prompts verbessern.
English
The remarkable advancements in Multimodal Large Language Models (MLLMs) have not rendered them immune to challenges, particularly in the context of handling deceptive information in prompts, thus producing hallucinated responses under such conditions. To quantitatively assess this vulnerability, we present MAD-Bench, a carefully curated benchmark that contains 850 test samples divided into 6 categories, such as non-existent objects, count of objects, spatial relationship, and visual confusion. We provide a comprehensive analysis of popular MLLMs, ranging from GPT-4V, Gemini-Pro, to open-sourced models, such as LLaVA-1.5 and CogVLM. Empirically, we observe significant performance gaps between GPT-4V and other models; and previous robust instruction-tuned models, such as LRV-Instruction and LLaVA-RLHF, are not effective on this new benchmark. While GPT-4V achieves 75.02% accuracy on MAD-Bench, the accuracy of any other model in our experiments ranges from 5% to 35%. We further propose a remedy that adds an additional paragraph to the deceptive prompts to encourage models to think twice before answering the question. Surprisingly, this simple method can even double the accuracy; however, the absolute numbers are still too low to be satisfactory. We hope MAD-Bench can serve as a valuable benchmark to stimulate further research to enhance models' resilience against deceptive prompts.
PDF153December 15, 2024