ChatPaper.aiChatPaper

ProSA : Évaluation et Compréhension de la Sensibilité à la Consigne des LLM

ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs

October 16, 2024
Auteurs: Jingming Zhuo, Songyang Zhang, Xinyu Fang, Haodong Duan, Dahua Lin, Kai Chen
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont démontré des capacités impressionnantes dans diverses tâches, mais leur performance est très sensible aux invitations utilisées. Cette variabilité pose des défis pour une évaluation précise et la satisfaction des utilisateurs. Les recherches actuelles négligent souvent les variations d'invitations au niveau de l'instance et leurs implications sur les évaluations subjectives. Pour remédier à ces lacunes, nous présentons ProSA, un cadre conçu pour évaluer et comprendre la sensibilité des invitations dans les LLMs. ProSA intègre une nouvelle métrique de sensibilité, PromptSensiScore, et exploite la confiance de décodage pour élucider les mécanismes sous-jacents. Notre étude approfondie, couvrant plusieurs tâches, révèle que la sensibilité des invitations varie selon les ensembles de données et les modèles, les plus grands modèles montrant une robustesse accrue. Nous constatons que des exemples en few-shot peuvent atténuer ce problème de sensibilité, et que les évaluations subjectives sont également sujettes aux sensibilités des invitations, en particulier dans les tâches complexes axées sur le raisonnement. De plus, nos résultats indiquent que la confiance accrue du modèle est corrélée à une robustesse accrue des invitations. Nous pensons que ce travail servira d'outil utile pour étudier la sensibilité des invitations des LLMs. Le projet est disponible sur : https://github.com/open-compass/ProSA.
English
Large language models (LLMs) have demonstrated impressive capabilities across various tasks, but their performance is highly sensitive to the prompts utilized. This variability poses challenges for accurate assessment and user satisfaction. Current research frequently overlooks instance-level prompt variations and their implications on subjective evaluations. To address these shortcomings, we introduce ProSA, a framework designed to evaluate and comprehend prompt sensitivity in LLMs. ProSA incorporates a novel sensitivity metric, PromptSensiScore, and leverages decoding confidence to elucidate underlying mechanisms. Our extensive study, spanning multiple tasks, uncovers that prompt sensitivity fluctuates across datasets and models, with larger models exhibiting enhanced robustness. We observe that few-shot examples can alleviate this sensitivity issue, and subjective evaluations are also susceptible to prompt sensitivities, particularly in complex, reasoning-oriented tasks. Furthermore, our findings indicate that higher model confidence correlates with increased prompt robustness. We believe this work will serve as a helpful tool in studying prompt sensitivity of LLMs. The project is released at: https://github.com/open-compass/ProSA .

Summary

AI-Generated Summary

PDF132November 16, 2024