ProSA: Evaluación y Comprensión de la Sensibilidad a la Consigna de LLMs

ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs

October 16, 2024
Autores: Jingming Zhuo, Songyang Zhang, Xinyu Fang, Haodong Duan, Dahua Lin, Kai Chen
cs.AI

Resumen

Los grandes modelos de lenguaje (LLMs) han demostrado capacidades impresionantes en diversas tareas, pero su rendimiento es altamente sensible a los estímulos utilizados. Esta variabilidad plantea desafíos para una evaluación precisa y la satisfacción del usuario. La investigación actual a menudo pasa por alto las variaciones de estímulos a nivel de instancia y sus implicaciones en las evaluaciones subjetivas. Para abordar estas deficiencias, presentamos ProSA, un marco diseñado para evaluar y comprender la sensibilidad al estímulo en los LLMs. ProSA incorpora una métrica de sensibilidad novedosa, PromptSensiScore, y aprovecha la confianza de decodificación para dilucidar los mecanismos subyacentes. Nuestro extenso estudio, que abarca múltiples tareas, revela que la sensibilidad al estímulo fluctúa entre conjuntos de datos y modelos, siendo que los modelos más grandes muestran una mayor robustez. Observamos que los ejemplos de poca muestra pueden aliviar este problema de sensibilidad, y las evaluaciones subjetivas también son susceptibles a las sensibilidades al estímulo, especialmente en tareas complejas orientadas al razonamiento. Además, nuestros hallazgos indican que una mayor confianza del modelo se correlaciona con una mayor robustez al estímulo. Creemos que este trabajo servirá como una herramienta útil para estudiar la sensibilidad al estímulo de los LLMs. El proyecto se encuentra disponible en: https://github.com/open-compass/ProSA.
English
Large language models (LLMs) have demonstrated impressive capabilities across various tasks, but their performance is highly sensitive to the prompts utilized. This variability poses challenges for accurate assessment and user satisfaction. Current research frequently overlooks instance-level prompt variations and their implications on subjective evaluations. To address these shortcomings, we introduce ProSA, a framework designed to evaluate and comprehend prompt sensitivity in LLMs. ProSA incorporates a novel sensitivity metric, PromptSensiScore, and leverages decoding confidence to elucidate underlying mechanisms. Our extensive study, spanning multiple tasks, uncovers that prompt sensitivity fluctuates across datasets and models, with larger models exhibiting enhanced robustness. We observe that few-shot examples can alleviate this sensitivity issue, and subjective evaluations are also susceptible to prompt sensitivities, particularly in complex, reasoning-oriented tasks. Furthermore, our findings indicate that higher model confidence correlates with increased prompt robustness. We believe this work will serve as a helpful tool in studying prompt sensitivity of LLMs. The project is released at: https://github.com/open-compass/ProSA .

Summary

AI-Generated Summary

PDF132November 16, 2024