ChatPaper.aiChatPaper

ProSA: Bewertung und Verständnis der Prompt-Sensitivität von LLMs

ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs

October 16, 2024
Autoren: Jingming Zhuo, Songyang Zhang, Xinyu Fang, Haodong Duan, Dahua Lin, Kai Chen
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten in verschiedenen Aufgaben gezeigt, aber ihre Leistung ist stark abhängig von den verwendeten Anfragen. Diese Variabilität stellt Herausforderungen für eine genaue Bewertung und Benutzerzufriedenheit dar. Aktuelle Forschung vernachlässigt häufig prompt-spezifische Variationen und deren Auswirkungen auf subjektive Bewertungen. Um diese Mängel anzugehen, stellen wir ProSA vor, ein Framework, das entwickelt wurde, um die Empfindlichkeit von Anfragen in LLMs zu bewerten und zu verstehen. ProSA integriert eine neuartige Empfindlichkeitsmetrik, PromptSensiScore, und nutzt die Dekodierungskonfidenz, um zugrundeliegende Mechanismen zu erläutern. Unsere umfangreiche Studie, die mehrere Aufgaben umfasst, zeigt, dass die Empfindlichkeit von Anfragen je nach Datensätzen und Modellen schwankt, wobei größere Modelle eine verbesserte Robustheit aufweisen. Wir beobachten, dass Few-Shot-Beispiele dieses Empfindlichkeitsproblem lindern können und subjektive Bewertungen auch anfällig für Anfrageempfindlichkeiten sind, insbesondere bei komplexen, auf Schlussfolgerungen ausgerichteten Aufgaben. Darüber hinaus zeigen unsere Ergebnisse, dass eine höhere Modellkonfidenz mit einer erhöhten Anfrage-Robustheit korreliert. Wir sind der Ansicht, dass diese Arbeit als nützliches Werkzeug zur Untersuchung der Anfrageempfindlichkeit von LLMs dienen wird. Das Projekt ist unter folgendem Link verfügbar: https://github.com/open-compass/ProSA.
English
Large language models (LLMs) have demonstrated impressive capabilities across various tasks, but their performance is highly sensitive to the prompts utilized. This variability poses challenges for accurate assessment and user satisfaction. Current research frequently overlooks instance-level prompt variations and their implications on subjective evaluations. To address these shortcomings, we introduce ProSA, a framework designed to evaluate and comprehend prompt sensitivity in LLMs. ProSA incorporates a novel sensitivity metric, PromptSensiScore, and leverages decoding confidence to elucidate underlying mechanisms. Our extensive study, spanning multiple tasks, uncovers that prompt sensitivity fluctuates across datasets and models, with larger models exhibiting enhanced robustness. We observe that few-shot examples can alleviate this sensitivity issue, and subjective evaluations are also susceptible to prompt sensitivities, particularly in complex, reasoning-oriented tasks. Furthermore, our findings indicate that higher model confidence correlates with increased prompt robustness. We believe this work will serve as a helpful tool in studying prompt sensitivity of LLMs. The project is released at: https://github.com/open-compass/ProSA .

Summary

AI-Generated Summary

PDF132November 16, 2024