ProSA: Bewertung und Verständnis der Prompt-Sensitivität von LLMs
ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs
October 16, 2024
Autoren: Jingming Zhuo, Songyang Zhang, Xinyu Fang, Haodong Duan, Dahua Lin, Kai Chen
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten in verschiedenen Aufgaben gezeigt, aber ihre Leistung ist stark abhängig von den verwendeten Anfragen. Diese Variabilität stellt Herausforderungen für eine genaue Bewertung und Benutzerzufriedenheit dar. Aktuelle Forschung vernachlässigt häufig prompt-spezifische Variationen und deren Auswirkungen auf subjektive Bewertungen. Um diese Mängel anzugehen, stellen wir ProSA vor, ein Framework, das entwickelt wurde, um die Empfindlichkeit von Anfragen in LLMs zu bewerten und zu verstehen. ProSA integriert eine neuartige Empfindlichkeitsmetrik, PromptSensiScore, und nutzt die Dekodierungskonfidenz, um zugrundeliegende Mechanismen zu erläutern. Unsere umfangreiche Studie, die mehrere Aufgaben umfasst, zeigt, dass die Empfindlichkeit von Anfragen je nach Datensätzen und Modellen schwankt, wobei größere Modelle eine verbesserte Robustheit aufweisen. Wir beobachten, dass Few-Shot-Beispiele dieses Empfindlichkeitsproblem lindern können und subjektive Bewertungen auch anfällig für Anfrageempfindlichkeiten sind, insbesondere bei komplexen, auf Schlussfolgerungen ausgerichteten Aufgaben. Darüber hinaus zeigen unsere Ergebnisse, dass eine höhere Modellkonfidenz mit einer erhöhten Anfrage-Robustheit korreliert. Wir sind der Ansicht, dass diese Arbeit als nützliches Werkzeug zur Untersuchung der Anfrageempfindlichkeit von LLMs dienen wird. Das Projekt ist unter folgendem Link verfügbar: https://github.com/open-compass/ProSA.
English
Large language models (LLMs) have demonstrated impressive capabilities across
various tasks, but their performance is highly sensitive to the prompts
utilized. This variability poses challenges for accurate assessment and user
satisfaction. Current research frequently overlooks instance-level prompt
variations and their implications on subjective evaluations. To address these
shortcomings, we introduce ProSA, a framework designed to evaluate and
comprehend prompt sensitivity in LLMs. ProSA incorporates a novel sensitivity
metric, PromptSensiScore, and leverages decoding confidence to elucidate
underlying mechanisms. Our extensive study, spanning multiple tasks, uncovers
that prompt sensitivity fluctuates across datasets and models, with larger
models exhibiting enhanced robustness. We observe that few-shot examples can
alleviate this sensitivity issue, and subjective evaluations are also
susceptible to prompt sensitivities, particularly in complex,
reasoning-oriented tasks. Furthermore, our findings indicate that higher model
confidence correlates with increased prompt robustness. We believe this work
will serve as a helpful tool in studying prompt sensitivity of LLMs. The
project is released at: https://github.com/open-compass/ProSA .Summary
AI-Generated Summary