TrustLLM: Vertrauenswürdigkeit in großen Sprachmodellen

papers.abstract

Große Sprachmodelle (LLMs), wie beispielsweise ChatGPT, haben aufgrund ihrer hervorragenden Fähigkeiten in der natürlichen Sprachverarbeitung erhebliche Aufmerksamkeit erlangt. Dennoch stellen diese LLMs viele Herausforderungen dar, insbesondere im Bereich der Vertrauenswürdigkeit. Daher ist die Sicherstellung der Vertrauenswürdigkeit von LLMs ein wichtiges Thema. Dieses Papier stellt TrustLLM vor, eine umfassende Studie zur Vertrauenswürdigkeit von LLMs, die Prinzipien für verschiedene Dimensionen der Vertrauenswürdigkeit, etablierte Benchmarks, Bewertungen und Analysen der Vertrauenswürdigkeit von Mainstream-LLMs sowie eine Diskussion offener Herausforderungen und zukünftiger Richtungen umfasst. Konkret schlagen wir zunächst eine Reihe von Prinzipien für vertrauenswürdige LLMs vor, die acht verschiedene Dimensionen abdecken. Basierend auf diesen Prinzipien etablieren wir weiterhin einen Benchmark über sechs Dimensionen, darunter Wahrhaftigkeit, Sicherheit, Fairness, Robustheit, Privatsphäre und Maschinenethik. Anschließend präsentieren wir eine Studie, in der 16 Mainstream-LLMs in TrustLLM bewertet werden, bestehend aus über 30 Datensätzen. Unsere Ergebnisse zeigen erstens, dass Vertrauenswürdigkeit und Nutzen (d.h. funktionale Effektivität) im Allgemeinen positiv korreliert sind. Zweitens zeigen unsere Beobachtungen, dass proprietäre LLMs in Bezug auf die Vertrauenswürdigkeit im Allgemeinen die meisten Open-Source-Pendants übertreffen, was Bedenken hinsichtlich der potenziellen Risiken weit verbreiteter Open-Source-LLMs aufwirft. Einige Open-Source-LLMs kommen jedoch proprietären Modellen sehr nahe. Drittens ist es wichtig zu beachten, dass einige LLMs möglicherweise übermäßig darauf kalibriert sind, Vertrauenswürdigkeit zu zeigen, bis zu dem Punkt, dass sie ihren Nutzen beeinträchtigen, indem sie harmlose Eingaben fälschlicherweise als schädlich behandeln und folglich nicht antworten. Schließlich betonen wir die Bedeutung der Sicherstellung von Transparenz nicht nur in den Modellen selbst, sondern auch in den Technologien, die die Vertrauenswürdigkeit untermauern. Die Kenntnis der spezifischen vertrauenswürdigen Technologien, die eingesetzt wurden, ist entscheidend für die Analyse ihrer Wirksamkeit.

English

Large language models (LLMs), exemplified by ChatGPT, have gained considerable attention for their excellent natural language processing capabilities. Nonetheless, these LLMs present many challenges, particularly in the realm of trustworthiness. Therefore, ensuring the trustworthiness of LLMs emerges as an important topic. This paper introduces TrustLLM, a comprehensive study of trustworthiness in LLMs, including principles for different dimensions of trustworthiness, established benchmark, evaluation, and analysis of trustworthiness for mainstream LLMs, and discussion of open challenges and future directions. Specifically, we first propose a set of principles for trustworthy LLMs that span eight different dimensions. Based on these principles, we further establish a benchmark across six dimensions including truthfulness, safety, fairness, robustness, privacy, and machine ethics. We then present a study evaluating 16 mainstream LLMs in TrustLLM, consisting of over 30 datasets. Our findings firstly show that in general trustworthiness and utility (i.e., functional effectiveness) are positively related. Secondly, our observations reveal that proprietary LLMs generally outperform most open-source counterparts in terms of trustworthiness, raising concerns about the potential risks of widely accessible open-source LLMs. However, a few open-source LLMs come very close to proprietary ones. Thirdly, it is important to note that some LLMs may be overly calibrated towards exhibiting trustworthiness, to the extent that they compromise their utility by mistakenly treating benign prompts as harmful and consequently not responding. Finally, we emphasize the importance of ensuring transparency not only in the models themselves but also in the technologies that underpin trustworthiness. Knowing the specific trustworthy technologies that have been employed is crucial for analyzing their effectiveness.

TrustLLM: Vertrauenswürdigkeit in großen Sprachmodellen

TrustLLM: Trustworthiness in Large Language Models

papers.abstract

Support