TrustLLM : Fiabilité des grands modèles de langage

papers.abstract

Les grands modèles de langage (LLMs), illustrés par ChatGPT, ont suscité une attention considérable pour leurs excellentes capacités de traitement du langage naturel. Néanmoins, ces LLMs présentent de nombreux défis, en particulier dans le domaine de la fiabilité. Par conséquent, garantir la fiabilité des LLMs devient un sujet important. Cet article présente TrustLLM, une étude approfondie de la fiabilité des LLMs, incluant des principes pour différentes dimensions de la fiabilité, un benchmark établi, l'évaluation et l'analyse de la fiabilité des LLMs grand public, ainsi qu'une discussion sur les défis ouverts et les directions futures. Plus précisément, nous proposons d'abord un ensemble de principes pour des LLMs fiables qui couvrent huit dimensions différentes. Sur la base de ces principes, nous établissons ensuite un benchmark couvrant six dimensions, notamment la véracité, la sécurité, l'équité, la robustesse, la confidentialité et l'éthique des machines. Nous présentons ensuite une étude évaluant 16 LLMs grand public dans TrustLLM, comprenant plus de 30 jeux de données. Nos résultats montrent tout d'abord que, de manière générale, la fiabilité et l'utilité (c'est-à-dire l'efficacité fonctionnelle) sont positivement corrélées. Deuxièmement, nos observations révèlent que les LLMs propriétaires surpassent généralement la plupart de leurs homologues open-source en termes de fiabilité, ce qui soulève des inquiétudes quant aux risques potentiels des LLMs open-source largement accessibles. Cependant, quelques LLMs open-source se rapprochent très près des modèles propriétaires. Troisièmement, il est important de noter que certains LLMs peuvent être trop calibrés pour manifester de la fiabilité, au point de compromettre leur utilité en traitant par erreur des invites bénignes comme nuisibles et, par conséquent, en ne répondant pas. Enfin, nous soulignons l'importance d'assurer la transparence non seulement dans les modèles eux-mêmes, mais aussi dans les technologies qui sous-tendent la fiabilité. Connaître les technologies spécifiques de fiabilité qui ont été employées est crucial pour analyser leur efficacité.

English

Large language models (LLMs), exemplified by ChatGPT, have gained considerable attention for their excellent natural language processing capabilities. Nonetheless, these LLMs present many challenges, particularly in the realm of trustworthiness. Therefore, ensuring the trustworthiness of LLMs emerges as an important topic. This paper introduces TrustLLM, a comprehensive study of trustworthiness in LLMs, including principles for different dimensions of trustworthiness, established benchmark, evaluation, and analysis of trustworthiness for mainstream LLMs, and discussion of open challenges and future directions. Specifically, we first propose a set of principles for trustworthy LLMs that span eight different dimensions. Based on these principles, we further establish a benchmark across six dimensions including truthfulness, safety, fairness, robustness, privacy, and machine ethics. We then present a study evaluating 16 mainstream LLMs in TrustLLM, consisting of over 30 datasets. Our findings firstly show that in general trustworthiness and utility (i.e., functional effectiveness) are positively related. Secondly, our observations reveal that proprietary LLMs generally outperform most open-source counterparts in terms of trustworthiness, raising concerns about the potential risks of widely accessible open-source LLMs. However, a few open-source LLMs come very close to proprietary ones. Thirdly, it is important to note that some LLMs may be overly calibrated towards exhibiting trustworthiness, to the extent that they compromise their utility by mistakenly treating benign prompts as harmful and consequently not responding. Finally, we emphasize the importance of ensuring transparency not only in the models themselves but also in the technologies that underpin trustworthiness. Knowing the specific trustworthy technologies that have been employed is crucial for analyzing their effectiveness.

TrustLLM : Fiabilité des grands modèles de langage

TrustLLM: Trustworthiness in Large Language Models

papers.abstract

Support