PromptBench: Naar het evalueren van de robuustheid van grote taalmodellen op adversariële prompts

Samenvatting

De toenemende afhankelijkheid van Large Language Models (LLMs) in zowel de academische wereld als de industrie vereist een grondig begrip van hun robuustheid tegen prompts. Als antwoord op deze cruciale behoefte introduceren we PromptBench, een robuustheidsbenchmark die is ontworpen om de veerkracht van LLMs tegen adversariële prompts te meten. Deze studie maakt gebruik van een veelvoud aan adversariële tekstuele aanvallen die gericht zijn op prompts op verschillende niveaus: karakter, woord, zin en semantiek. Deze prompts worden vervolgens ingezet bij diverse taken, zoals sentimentanalyse, natuurlijke taal inferentie, leesbegrip, machinaal vertalen en het oplossen van wiskundige problemen. Onze studie genereert 4.032 adversariële prompts, die zorgvuldig worden geëvalueerd over 8 taken en 13 datasets, met in totaal 567.084 testmonsters. Onze bevindingen tonen aan dat hedendaagse LLMs kwetsbaar zijn voor adversariële prompts. Bovendien presenteren we een uitgebreide analyse om het mysterie achter prompt robuustheid en de overdraagbaarheid ervan te begrijpen. Vervolgens bieden we inzichtelijke robuustheidsanalyses en praktische aanbevelingen voor het samenstellen van prompts, die zowel onderzoekers als alledaagse gebruikers ten goede komen. We stellen onze code, prompts en methodologieën om adversariële prompts te genereren publiekelijk beschikbaar, waardoor samenwerking in dit cruciale veld wordt gefaciliteerd en aangemoedigd: https://github.com/microsoft/promptbench.

English

The increasing reliance on Large Language Models (LLMs) across academia and industry necessitates a comprehensive understanding of their robustness to prompts. In response to this vital need, we introduce PromptBench, a robustness benchmark designed to measure LLMs' resilience to adversarial prompts. This study uses a plethora of adversarial textual attacks targeting prompts across multiple levels: character, word, sentence, and semantic. These prompts are then employed in diverse tasks, such as sentiment analysis, natural language inference, reading comprehension, machine translation, and math problem-solving. Our study generates 4,032 adversarial prompts, meticulously evaluated over 8 tasks and 13 datasets, with 567,084 test samples in total. Our findings demonstrate that contemporary LLMs are vulnerable to adversarial prompts. Furthermore, we present comprehensive analysis to understand the mystery behind prompt robustness and its transferability. We then offer insightful robustness analysis and pragmatic recommendations for prompt composition, beneficial to both researchers and everyday users. We make our code, prompts, and methodologies to generate adversarial prompts publicly accessible, thereby enabling and encouraging collaborative exploration in this pivotal field: https://github.com/microsoft/promptbench.

PromptBench: Naar het evalueren van de robuustheid van grote taalmodellen op adversariële prompts

PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts

Samenvatting

Support