PromptBench: К оценке устойчивости больших языковых моделей к адверсарным промптам
PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts
June 7, 2023
Авторы: Kaijie Zhu, Jindong Wang, Jiaheng Zhou, Zichen Wang, Hao Chen, Yidong Wang, Linyi Yang, Wei Ye, Neil Zhenqiang Gong, Yue Zhang, Xing Xie
cs.AI
Аннотация
Растущая зависимость от крупных языковых моделей (LLM) в академических и промышленных кругах требует всестороннего понимания их устойчивости к промптам. В ответ на эту важную потребность мы представляем PromptBench — эталонный тест для оценки устойчивости LLM к адверсарным промптам. В данном исследовании используется множество адверсарных текстовых атак, направленных на промпты различных уровней: символьного, словесного, предложенческого и семантического. Эти промпты затем применяются в разнообразных задачах, таких как анализ тональности, естественно-языковой вывод, понимание прочитанного, машинный перевод и решение математических задач. Наше исследование генерирует 4 032 адверсарных промпта, тщательно оцененных на 8 задачах и 13 наборах данных, с общим количеством тестовых образцов 567 084. Наши результаты показывают, что современные LLM уязвимы к адверсарным промптам. Кроме того, мы представляем всесторонний анализ для понимания загадки устойчивости промптов и их переносимости. Затем мы предлагаем глубокий анализ устойчивости и практические рекомендации по составлению промптов, полезные как для исследователей, так и для повседневных пользователей. Мы делаем наш код, промпты и методологии для генерации адверсарных промптов общедоступными, тем самым способствуя и поощряя совместное исследование в этой ключевой области: https://github.com/microsoft/promptbench.
English
The increasing reliance on Large Language Models (LLMs) across academia and
industry necessitates a comprehensive understanding of their robustness to
prompts. In response to this vital need, we introduce PromptBench, a robustness
benchmark designed to measure LLMs' resilience to adversarial prompts. This
study uses a plethora of adversarial textual attacks targeting prompts across
multiple levels: character, word, sentence, and semantic. These prompts are
then employed in diverse tasks, such as sentiment analysis, natural language
inference, reading comprehension, machine translation, and math
problem-solving. Our study generates 4,032 adversarial prompts, meticulously
evaluated over 8 tasks and 13 datasets, with 567,084 test samples in total. Our
findings demonstrate that contemporary LLMs are vulnerable to adversarial
prompts. Furthermore, we present comprehensive analysis to understand the
mystery behind prompt robustness and its transferability. We then offer
insightful robustness analysis and pragmatic recommendations for prompt
composition, beneficial to both researchers and everyday users. We make our
code, prompts, and methodologies to generate adversarial prompts publicly
accessible, thereby enabling and encouraging collaborative exploration in this
pivotal field: https://github.com/microsoft/promptbench.