ChatPaper.aiChatPaper

TrustLLM: Betrouwbaarheid in Grote Taalmodellen

TrustLLM: Trustworthiness in Large Language Models

January 10, 2024
Auteurs: Lichao Sun, Yue Huang, Haoran Wang, Siyuan Wu, Qihui Zhang, Chujie Gao, Yixin Huang, Wenhan Lyu, Yixuan Zhang, Xiner Li, Zhengliang Liu, Yixin Liu, Yijue Wang, Zhikun Zhang, Bhavya Kailkhura, Caiming Xiong, Chao Zhang, Chaowei Xiao, Chunyuan Li, Eric Xing, Furong Huang, Hao Liu, Heng Ji, Hongyi Wang, Huan Zhang, Huaxiu Yao, Manolis Kellis, Marinka Zitnik, Meng Jiang, Mohit Bansal, James Zou, Jian Pei, Jian Liu, Jianfeng Gao, Jiawei Han, Jieyu Zhao, Jiliang Tang, Jindong Wang, John Mitchell, Kai Shu, Kaidi Xu, Kai-Wei Chang, Lifang He, Lifu Huang, Michael Backes, Neil Zhenqiang Gong, Philip S. Yu, Pin-Yu Chen, Quanquan Gu, Ran Xu, Rex Ying, Shuiwang Ji, Suman Jana, Tianlong Chen, Tianming Liu, Tianyi Zhou, Willian Wang, Xiang Li, Xiangliang Zhang, Xiao Wang, Xing Xie, Xun Chen, Xuyu Wang, Yan Liu, Yanfang Ye, Yinzhi Cao, Yue Zhao
cs.AI

Samenvatting

Grote taalmodellen (LLM's), waarvan ChatGPT een voorbeeld is, hebben aanzienlijke aandacht gekregen vanwege hun uitstekende verwerkingscapaciteiten voor natuurlijke taal. Desalniettemin brengen deze LLM's veel uitdagingen met zich mee, met name op het gebied van betrouwbaarheid. Daarom is het waarborgen van de betrouwbaarheid van LLM's een belangrijk onderwerp geworden. Dit artikel introduceert TrustLLM, een uitgebreide studie naar betrouwbaarheid in LLM's, inclusief principes voor verschillende dimensies van betrouwbaarheid, een vastgestelde benchmark, evaluatie en analyse van betrouwbaarheid voor mainstream LLM's, en een bespreking van openstaande uitdagingen en toekomstige richtingen. Specifiek stellen we eerst een reeks principes voor voor betrouwbare LLM's die acht verschillende dimensies omvatten. Op basis van deze principes stellen we verder een benchmark vast over zes dimensies, waaronder waarheidsgetrouwheid, veiligheid, eerlijkheid, robuustheid, privacy en machine-ethiek. Vervolgens presenteren we een studie waarin 16 mainstream LLM's in TrustLLM worden geëvalueerd, bestaande uit meer dan 30 datasets. Onze bevindingen laten ten eerste zien dat betrouwbaarheid en functionaliteit (d.w.z. functionele effectiviteit) over het algemeen positief gerelateerd zijn. Ten tweede onthullen onze observaties dat propriëtaire LLM's over het algemeen beter presteren dan de meeste open-source tegenhangers wat betreft betrouwbaarheid, wat zorgen oproept over de potentiële risico's van breed toegankelijke open-source LLM's. Echter, een paar open-source LLM's komen zeer dicht in de buurt van propriëtaire modellen. Ten derde is het belangrijk op te merken dat sommige LLM's mogelijk te veel zijn afgestemd op het tonen van betrouwbaarheid, tot het punt waarop ze hun functionaliteit in gevaar brengen door onschadelijke prompts ten onrechte als schadelijk te behandelen en daarop niet te reageren. Tot slot benadrukken we het belang van het waarborgen van transparantie, niet alleen in de modellen zelf, maar ook in de technologieën die de betrouwbaarheid ondersteunen. Het kennen van de specifieke betrouwbare technologieën die zijn toegepast, is cruciaal voor het analyseren van hun effectiviteit.
English
Large language models (LLMs), exemplified by ChatGPT, have gained considerable attention for their excellent natural language processing capabilities. Nonetheless, these LLMs present many challenges, particularly in the realm of trustworthiness. Therefore, ensuring the trustworthiness of LLMs emerges as an important topic. This paper introduces TrustLLM, a comprehensive study of trustworthiness in LLMs, including principles for different dimensions of trustworthiness, established benchmark, evaluation, and analysis of trustworthiness for mainstream LLMs, and discussion of open challenges and future directions. Specifically, we first propose a set of principles for trustworthy LLMs that span eight different dimensions. Based on these principles, we further establish a benchmark across six dimensions including truthfulness, safety, fairness, robustness, privacy, and machine ethics. We then present a study evaluating 16 mainstream LLMs in TrustLLM, consisting of over 30 datasets. Our findings firstly show that in general trustworthiness and utility (i.e., functional effectiveness) are positively related. Secondly, our observations reveal that proprietary LLMs generally outperform most open-source counterparts in terms of trustworthiness, raising concerns about the potential risks of widely accessible open-source LLMs. However, a few open-source LLMs come very close to proprietary ones. Thirdly, it is important to note that some LLMs may be overly calibrated towards exhibiting trustworthiness, to the extent that they compromise their utility by mistakenly treating benign prompts as harmful and consequently not responding. Finally, we emphasize the importance of ensuring transparency not only in the models themselves but also in the technologies that underpin trustworthiness. Knowing the specific trustworthy technologies that have been employed is crucial for analyzing their effectiveness.
PDF693February 8, 2026