ProSA: Evaluación y Comprensión de la Sensibilidad a la Consigna de LLMs
ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs
October 16, 2024
Autores: Jingming Zhuo, Songyang Zhang, Xinyu Fang, Haodong Duan, Dahua Lin, Kai Chen
cs.AI
Resumen
Los grandes modelos de lenguaje (LLMs) han demostrado capacidades impresionantes en diversas tareas, pero su rendimiento es altamente sensible a los estímulos utilizados. Esta variabilidad plantea desafíos para una evaluación precisa y la satisfacción del usuario. La investigación actual a menudo pasa por alto las variaciones de estímulos a nivel de instancia y sus implicaciones en las evaluaciones subjetivas. Para abordar estas deficiencias, presentamos ProSA, un marco diseñado para evaluar y comprender la sensibilidad al estímulo en los LLMs. ProSA incorpora una métrica de sensibilidad novedosa, PromptSensiScore, y aprovecha la confianza de decodificación para dilucidar los mecanismos subyacentes. Nuestro extenso estudio, que abarca múltiples tareas, revela que la sensibilidad al estímulo fluctúa entre conjuntos de datos y modelos, siendo que los modelos más grandes muestran una mayor robustez. Observamos que los ejemplos de poca muestra pueden aliviar este problema de sensibilidad, y las evaluaciones subjetivas también son susceptibles a las sensibilidades al estímulo, especialmente en tareas complejas orientadas al razonamiento. Además, nuestros hallazgos indican que una mayor confianza del modelo se correlaciona con una mayor robustez al estímulo. Creemos que este trabajo servirá como una herramienta útil para estudiar la sensibilidad al estímulo de los LLMs. El proyecto se encuentra disponible en: https://github.com/open-compass/ProSA.
English
Large language models (LLMs) have demonstrated impressive capabilities across
various tasks, but their performance is highly sensitive to the prompts
utilized. This variability poses challenges for accurate assessment and user
satisfaction. Current research frequently overlooks instance-level prompt
variations and their implications on subjective evaluations. To address these
shortcomings, we introduce ProSA, a framework designed to evaluate and
comprehend prompt sensitivity in LLMs. ProSA incorporates a novel sensitivity
metric, PromptSensiScore, and leverages decoding confidence to elucidate
underlying mechanisms. Our extensive study, spanning multiple tasks, uncovers
that prompt sensitivity fluctuates across datasets and models, with larger
models exhibiting enhanced robustness. We observe that few-shot examples can
alleviate this sensitivity issue, and subjective evaluations are also
susceptible to prompt sensitivities, particularly in complex,
reasoning-oriented tasks. Furthermore, our findings indicate that higher model
confidence correlates with increased prompt robustness. We believe this work
will serve as a helpful tool in studying prompt sensitivity of LLMs. The
project is released at: https://github.com/open-compass/ProSA .Summary
AI-Generated Summary