PromptBench: Verso la Valutazione della Robustezza dei Modelli Linguistici di Grande Scala sugli Input Avversariali

Abstract

La crescente dipendenza dai Large Language Models (LLM) in ambito accademico e industriale rende necessaria una comprensione approfondita della loro robustezza rispetto ai prompt. In risposta a questa esigenza cruciale, introduciamo PromptBench, un benchmark di robustezza progettato per misurare la resilienza dei LLM ai prompt avversari. Questo studio utilizza una vasta gamma di attacchi testuali avversari rivolti ai prompt a più livelli: carattere, parola, frase e semantico. Questi prompt vengono poi impiegati in diverse attività, come l'analisi del sentiment, l'inferenza del linguaggio naturale, la comprensione della lettura, la traduzione automatica e la risoluzione di problemi matematici. Il nostro studio genera 4.032 prompt avversari, valutati meticolosamente su 8 attività e 13 dataset, con un totale di 567.084 campioni di test. I nostri risultati dimostrano che i LLM contemporanei sono vulnerabili ai prompt avversari. Inoltre, presentiamo un'analisi completa per comprendere il mistero dietro la robustezza dei prompt e la sua trasferibilità. Offriamo quindi un'analisi approfondita della robustezza e raccomandazioni pragmatiche per la composizione dei prompt, utili sia ai ricercatori che agli utenti quotidiani. Rendiamo pubblicamente accessibili il nostro codice, i prompt e le metodologie per generare prompt avversari, favorendo e incoraggiando l'esplorazione collaborativa in questo campo cruciale: https://github.com/microsoft/promptbench.

English

The increasing reliance on Large Language Models (LLMs) across academia and industry necessitates a comprehensive understanding of their robustness to prompts. In response to this vital need, we introduce PromptBench, a robustness benchmark designed to measure LLMs' resilience to adversarial prompts. This study uses a plethora of adversarial textual attacks targeting prompts across multiple levels: character, word, sentence, and semantic. These prompts are then employed in diverse tasks, such as sentiment analysis, natural language inference, reading comprehension, machine translation, and math problem-solving. Our study generates 4,032 adversarial prompts, meticulously evaluated over 8 tasks and 13 datasets, with 567,084 test samples in total. Our findings demonstrate that contemporary LLMs are vulnerable to adversarial prompts. Furthermore, we present comprehensive analysis to understand the mystery behind prompt robustness and its transferability. We then offer insightful robustness analysis and pragmatic recommendations for prompt composition, beneficial to both researchers and everyday users. We make our code, prompts, and methodologies to generate adversarial prompts publicly accessible, thereby enabling and encouraging collaborative exploration in this pivotal field: https://github.com/microsoft/promptbench.

PromptBench: Verso la Valutazione della Robustezza dei Modelli Linguistici di Grande Scala sugli Input Avversariali

PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts

Abstract

Support