PromptBench: Rumo à Avaliação da Robustez de Modelos de Linguagem de Grande Escala em Prompts Adversariais

Resumo

A crescente dependência de Modelos de Linguagem de Grande Escala (LLMs) na academia e na indústria exige uma compreensão abrangente de sua robustez em relação a prompts. Em resposta a essa necessidade crucial, apresentamos o PromptBench, um benchmark de robustez projetado para medir a resiliência dos LLMs a prompts adversariais. Este estudo utiliza uma variedade de ataques textuais adversariais direcionados a prompts em múltiplos níveis: caractere, palavra, frase e semântico. Esses prompts são então empregados em diversas tarefas, como análise de sentimentos, inferência em linguagem natural, compreensão de leitura, tradução automática e resolução de problemas matemáticos. Nosso estudo gera 4.032 prompts adversariais, meticulosamente avaliados em 8 tarefas e 13 conjuntos de dados, totalizando 567.084 amostras de teste. Nossas descobertas demonstram que os LLMs contemporâneos são vulneráveis a prompts adversariais. Além disso, apresentamos uma análise abrangente para entender o mistério por trás da robustez dos prompts e sua transferibilidade. Em seguida, oferecemos uma análise perspicaz de robustez e recomendações pragmáticas para a composição de prompts, benéficas tanto para pesquisadores quanto para usuários cotidianos. Disponibilizamos publicamente nosso código, prompts e metodologias para gerar prompts adversariais, permitindo e incentivando a exploração colaborativa neste campo crucial: https://github.com/microsoft/promptbench.

English

The increasing reliance on Large Language Models (LLMs) across academia and industry necessitates a comprehensive understanding of their robustness to prompts. In response to this vital need, we introduce PromptBench, a robustness benchmark designed to measure LLMs' resilience to adversarial prompts. This study uses a plethora of adversarial textual attacks targeting prompts across multiple levels: character, word, sentence, and semantic. These prompts are then employed in diverse tasks, such as sentiment analysis, natural language inference, reading comprehension, machine translation, and math problem-solving. Our study generates 4,032 adversarial prompts, meticulously evaluated over 8 tasks and 13 datasets, with 567,084 test samples in total. Our findings demonstrate that contemporary LLMs are vulnerable to adversarial prompts. Furthermore, we present comprehensive analysis to understand the mystery behind prompt robustness and its transferability. We then offer insightful robustness analysis and pragmatic recommendations for prompt composition, beneficial to both researchers and everyday users. We make our code, prompts, and methodologies to generate adversarial prompts publicly accessible, thereby enabling and encouraging collaborative exploration in this pivotal field: https://github.com/microsoft/promptbench.

PromptBench: Rumo à Avaliação da Robustez de Modelos de Linguagem de Grande Escala em Prompts Adversariais

PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts

Resumo

Support