ChatPaper.aiChatPaper

PromptBench: Hacia la Evaluación de la Robustez de Modelos de Lenguaje de Gran Escala frente a Prompts Adversariales

PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts

June 7, 2023
Autores: Kaijie Zhu, Jindong Wang, Jiaheng Zhou, Zichen Wang, Hao Chen, Yidong Wang, Linyi Yang, Wei Ye, Neil Zhenqiang Gong, Yue Zhang, Xing Xie
cs.AI

Resumen

La creciente dependencia de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) en el ámbito académico e industrial hace necesario un entendimiento exhaustivo de su robustez frente a los prompts. En respuesta a esta necesidad crucial, presentamos PromptBench, un benchmark de robustez diseñado para medir la resistencia de los LLMs ante prompts adversarios. Este estudio utiliza una amplia variedad de ataques textuales adversarios dirigidos a prompts en múltiples niveles: carácter, palabra, oración y semántica. Estos prompts se emplean luego en diversas tareas, como análisis de sentimientos, inferencia en lenguaje natural, comprensión lectora, traducción automática y resolución de problemas matemáticos. Nuestro estudio genera 4,032 prompts adversarios, evaluados meticulosamente en 8 tareas y 13 conjuntos de datos, con un total de 567,084 muestras de prueba. Nuestros hallazgos demuestran que los LLMs contemporáneos son vulnerables a los prompts adversarios. Además, presentamos un análisis exhaustivo para comprender el misterio detrás de la robustez de los prompts y su transferibilidad. Luego, ofrecemos un análisis perspicaz de la robustez y recomendaciones pragmáticas para la composición de prompts, beneficiosas tanto para investigadores como para usuarios cotidianos. Hacemos que nuestro código, prompts y metodologías para generar prompts adversarios sean de acceso público, fomentando así la exploración colaborativa en este campo crucial: https://github.com/microsoft/promptbench.
English
The increasing reliance on Large Language Models (LLMs) across academia and industry necessitates a comprehensive understanding of their robustness to prompts. In response to this vital need, we introduce PromptBench, a robustness benchmark designed to measure LLMs' resilience to adversarial prompts. This study uses a plethora of adversarial textual attacks targeting prompts across multiple levels: character, word, sentence, and semantic. These prompts are then employed in diverse tasks, such as sentiment analysis, natural language inference, reading comprehension, machine translation, and math problem-solving. Our study generates 4,032 adversarial prompts, meticulously evaluated over 8 tasks and 13 datasets, with 567,084 test samples in total. Our findings demonstrate that contemporary LLMs are vulnerable to adversarial prompts. Furthermore, we present comprehensive analysis to understand the mystery behind prompt robustness and its transferability. We then offer insightful robustness analysis and pragmatic recommendations for prompt composition, beneficial to both researchers and everyday users. We make our code, prompts, and methodologies to generate adversarial prompts publicly accessible, thereby enabling and encouraging collaborative exploration in this pivotal field: https://github.com/microsoft/promptbench.
PDF30December 15, 2024