ChatPaper.aiChatPaper

TrustLLM: Confiabilidad en los Modelos de Lenguaje de Gran Escala

TrustLLM: Trustworthiness in Large Language Models

January 10, 2024
Autores: Lichao Sun, Yue Huang, Haoran Wang, Siyuan Wu, Qihui Zhang, Chujie Gao, Yixin Huang, Wenhan Lyu, Yixuan Zhang, Xiner Li, Zhengliang Liu, Yixin Liu, Yijue Wang, Zhikun Zhang, Bhavya Kailkhura, Caiming Xiong, Chao Zhang, Chaowei Xiao, Chunyuan Li, Eric Xing, Furong Huang, Hao Liu, Heng Ji, Hongyi Wang, Huan Zhang, Huaxiu Yao, Manolis Kellis, Marinka Zitnik, Meng Jiang, Mohit Bansal, James Zou, Jian Pei, Jian Liu, Jianfeng Gao, Jiawei Han, Jieyu Zhao, Jiliang Tang, Jindong Wang, John Mitchell, Kai Shu, Kaidi Xu, Kai-Wei Chang, Lifang He, Lifu Huang, Michael Backes, Neil Zhenqiang Gong, Philip S. Yu, Pin-Yu Chen, Quanquan Gu, Ran Xu, Rex Ying, Shuiwang Ji, Suman Jana, Tianlong Chen, Tianming Liu, Tianyi Zhou, Willian Wang, Xiang Li, Xiangliang Zhang, Xiao Wang, Xing Xie, Xun Chen, Xuyu Wang, Yan Liu, Yanfang Ye, Yinzhi Cao, Yue Zhao
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), ejemplificados por ChatGPT, han captado una atención considerable por sus excelentes capacidades de procesamiento de lenguaje natural. Sin embargo, estos LLMs presentan numerosos desafíos, particularmente en el ámbito de la confiabilidad. Por lo tanto, garantizar la confiabilidad de los LLMs surge como un tema importante. Este artículo presenta TrustLLM, un estudio exhaustivo sobre la confiabilidad en los LLMs, que incluye principios para diferentes dimensiones de confiabilidad, un conjunto de benchmarks establecidos, evaluación y análisis de la confiabilidad para los LLMs más destacados, y una discusión sobre los desafíos abiertos y direcciones futuras. Específicamente, primero proponemos un conjunto de principios para LLMs confiables que abarcan ocho dimensiones diferentes. Basándonos en estos principios, establecemos un benchmark que cubre seis dimensiones, incluyendo veracidad, seguridad, equidad, robustez, privacidad y ética de las máquinas. Luego, presentamos un estudio que evalúa 16 LLMs principales en TrustLLM, utilizando más de 30 conjuntos de datos. Nuestros hallazgos muestran, en primer lugar, que, en general, la confiabilidad y la utilidad (es decir, la efectividad funcional) están positivamente relacionadas. En segundo lugar, nuestras observaciones revelan que los LLMs propietarios generalmente superan a la mayoría de sus contrapartes de código abierto en términos de confiabilidad, lo que plantea preocupaciones sobre los riesgos potenciales de los LLMs de código abierto ampliamente accesibles. Sin embargo, algunos LLMs de código abierto se acercan mucho a los propietarios. En tercer lugar, es importante señalar que algunos LLMs pueden estar excesivamente calibrados para exhibir confiabilidad, hasta el punto de comprometer su utilidad al tratar erróneamente indicaciones benignas como dañinas y, en consecuencia, no responder. Finalmente, enfatizamos la importancia de garantizar la transparencia no solo en los modelos mismos, sino también en las tecnologías que sustentan la confiabilidad. Conocer las tecnologías específicas de confiabilidad que se han empleado es crucial para analizar su efectividad.
English
Large language models (LLMs), exemplified by ChatGPT, have gained considerable attention for their excellent natural language processing capabilities. Nonetheless, these LLMs present many challenges, particularly in the realm of trustworthiness. Therefore, ensuring the trustworthiness of LLMs emerges as an important topic. This paper introduces TrustLLM, a comprehensive study of trustworthiness in LLMs, including principles for different dimensions of trustworthiness, established benchmark, evaluation, and analysis of trustworthiness for mainstream LLMs, and discussion of open challenges and future directions. Specifically, we first propose a set of principles for trustworthy LLMs that span eight different dimensions. Based on these principles, we further establish a benchmark across six dimensions including truthfulness, safety, fairness, robustness, privacy, and machine ethics. We then present a study evaluating 16 mainstream LLMs in TrustLLM, consisting of over 30 datasets. Our findings firstly show that in general trustworthiness and utility (i.e., functional effectiveness) are positively related. Secondly, our observations reveal that proprietary LLMs generally outperform most open-source counterparts in terms of trustworthiness, raising concerns about the potential risks of widely accessible open-source LLMs. However, a few open-source LLMs come very close to proprietary ones. Thirdly, it is important to note that some LLMs may be overly calibrated towards exhibiting trustworthiness, to the extent that they compromise their utility by mistakenly treating benign prompts as harmful and consequently not responding. Finally, we emphasize the importance of ensuring transparency not only in the models themselves but also in the technologies that underpin trustworthiness. Knowing the specific trustworthy technologies that have been employed is crucial for analyzing their effectiveness.
PDF703December 15, 2024