ChatPaper.aiChatPaper

PromptBench: Zur Bewertung der Robustheit großer Sprachmodelle gegenüber adversarischen Prompts

PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts

June 7, 2023
Autoren: Kaijie Zhu, Jindong Wang, Jiaheng Zhou, Zichen Wang, Hao Chen, Yidong Wang, Linyi Yang, Wei Ye, Neil Zhenqiang Gong, Yue Zhang, Xing Xie
cs.AI

Zusammenfassung

Die zunehmende Abhängigkeit von Large Language Models (LLMs) in Wissenschaft und Industrie erfordert ein umfassendes Verständnis ihrer Robustheit gegenüber Prompts. Als Antwort auf diesen dringenden Bedarf stellen wir PromptBench vor, einen Robustheits-Benchmark, der entwickelt wurde, um die Widerstandsfähigkeit von LLMs gegenüber adversarischen Prompts zu messen. Diese Studie verwendet eine Vielzahl von adversarischen Textangriffen, die Prompts auf mehreren Ebenen ins Visier nehmen: Zeichen, Wort, Satz und Semantik. Diese Prompts werden dann in verschiedenen Aufgaben eingesetzt, wie beispielsweise Sentiment-Analyse, natürliche Sprachinferenz, Leseverständnis, maschinelle Übersetzung und mathematische Problemlösung. Unsere Studie generiert 4.032 adversarische Prompts, die sorgfältig über 8 Aufgaben und 13 Datensätze hinweg evaluiert werden, mit insgesamt 567.084 Testbeispielen. Unsere Ergebnisse zeigen, dass zeitgenössische LLMs anfällig für adversarische Prompts sind. Darüber hinaus präsentieren wir eine umfassende Analyse, um das Rätsel hinter der Prompt-Robustheit und ihrer Übertragbarkeit zu verstehen. Anschließend bieten wir aufschlussreiche Robustheitsanalysen und pragmatische Empfehlungen für die Prompt-Zusammensetzung, die sowohl Forschern als auch alltäglichen Nutzern zugutekommen. Wir stellen unseren Code, die Prompts und die Methoden zur Generierung adversarischer Prompts öffentlich zugänglich, um die kollaborative Erforschung in diesem zentralen Bereich zu ermöglichen und zu fördern: https://github.com/microsoft/promptbench.
English
The increasing reliance on Large Language Models (LLMs) across academia and industry necessitates a comprehensive understanding of their robustness to prompts. In response to this vital need, we introduce PromptBench, a robustness benchmark designed to measure LLMs' resilience to adversarial prompts. This study uses a plethora of adversarial textual attacks targeting prompts across multiple levels: character, word, sentence, and semantic. These prompts are then employed in diverse tasks, such as sentiment analysis, natural language inference, reading comprehension, machine translation, and math problem-solving. Our study generates 4,032 adversarial prompts, meticulously evaluated over 8 tasks and 13 datasets, with 567,084 test samples in total. Our findings demonstrate that contemporary LLMs are vulnerable to adversarial prompts. Furthermore, we present comprehensive analysis to understand the mystery behind prompt robustness and its transferability. We then offer insightful robustness analysis and pragmatic recommendations for prompt composition, beneficial to both researchers and everyday users. We make our code, prompts, and methodologies to generate adversarial prompts publicly accessible, thereby enabling and encouraging collaborative exploration in this pivotal field: https://github.com/microsoft/promptbench.
PDF30December 15, 2024