ChatPaper.aiChatPaper

PromptBench : Vers une évaluation de la robustesse des grands modèles de langage face aux prompts adverses

PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts

June 7, 2023
Auteurs: Kaijie Zhu, Jindong Wang, Jiaheng Zhou, Zichen Wang, Hao Chen, Yidong Wang, Linyi Yang, Wei Ye, Neil Zhenqiang Gong, Yue Zhang, Xing Xie
cs.AI

Résumé

La dépendance croissante envers les modèles de langage de grande taille (LLMs) dans les milieux académiques et industriels nécessite une compréhension approfondie de leur robustesse face aux prompts. Pour répondre à ce besoin crucial, nous présentons PromptBench, un benchmark de robustesse conçu pour mesurer la résilience des LLMs face aux prompts adverses. Cette étude utilise une multitude d'attaques textuelles adverses ciblant les prompts à plusieurs niveaux : caractère, mot, phrase et sémantique. Ces prompts sont ensuite utilisés dans diverses tâches, telles que l'analyse de sentiments, l'inférence en langage naturel, la compréhension de lecture, la traduction automatique et la résolution de problèmes mathématiques. Notre étude génère 4 032 prompts adverses, méticuleusement évalués sur 8 tâches et 13 jeux de données, avec un total de 567 084 échantillons de test. Nos résultats démontrent que les LLMs contemporains sont vulnérables aux prompts adverses. De plus, nous présentons une analyse approfondie pour comprendre le mystère derrière la robustesse des prompts et leur transférabilité. Nous offrons ensuite une analyse perspicace de la robustesse et des recommandations pragmatiques pour la composition des prompts, bénéfiques tant pour les chercheurs que pour les utilisateurs quotidiens. Nous rendons notre code, nos prompts et nos méthodologies pour générer des prompts adverses accessibles au public, permettant ainsi et encourageant l'exploration collaborative dans ce domaine crucial : https://github.com/microsoft/promptbench.
English
The increasing reliance on Large Language Models (LLMs) across academia and industry necessitates a comprehensive understanding of their robustness to prompts. In response to this vital need, we introduce PromptBench, a robustness benchmark designed to measure LLMs' resilience to adversarial prompts. This study uses a plethora of adversarial textual attacks targeting prompts across multiple levels: character, word, sentence, and semantic. These prompts are then employed in diverse tasks, such as sentiment analysis, natural language inference, reading comprehension, machine translation, and math problem-solving. Our study generates 4,032 adversarial prompts, meticulously evaluated over 8 tasks and 13 datasets, with 567,084 test samples in total. Our findings demonstrate that contemporary LLMs are vulnerable to adversarial prompts. Furthermore, we present comprehensive analysis to understand the mystery behind prompt robustness and its transferability. We then offer insightful robustness analysis and pragmatic recommendations for prompt composition, beneficial to both researchers and everyday users. We make our code, prompts, and methodologies to generate adversarial prompts publicly accessible, thereby enabling and encouraging collaborative exploration in this pivotal field: https://github.com/microsoft/promptbench.
PDF30December 15, 2024