LLMs dignes de confiance : une étude et des lignes directrices pour évaluer l'alignement des grands modèles de langage
Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment
August 10, 2023
Auteurs: Yang Liu, Yuanshun Yao, Jean-Francois Ton, Xiaoying Zhang, Ruocheng Guo Hao Cheng, Yegor Klochkov, Muhammad Faaiz Taufiq, Hang Li
cs.AI
Résumé
Garantir l'alignement, qui consiste à faire en sorte que les modèles se comportent conformément aux intentions humaines [1,2], est devenu une tâche cruciale avant le déploiement des grands modèles de langage (LLMs) dans des applications réelles. Par exemple, OpenAI a consacré six mois à aligner itérativement GPT-4 avant sa sortie [3]. Cependant, un défi majeur auquel sont confrontés les praticiens est le manque de directives claires pour évaluer si les sorties des LLMs sont conformes aux normes sociales, aux valeurs et aux régulations. Cet obstacle entrave l'itération systématique et le déploiement des LLMs. Pour résoudre ce problème, cet article présente une étude approfondie des dimensions clés à prendre en compte lors de l'évaluation de la fiabilité des LLMs. L'étude couvre sept grandes catégories de fiabilité des LLMs : la fiabilité, la sécurité, l'équité, la résistance aux abus, l'explicabilité et le raisonnement, le respect des normes sociales, et la robustesse. Chaque grande catégorie est ensuite divisée en plusieurs sous-catégories, aboutissant à un total de 29 sous-catégories. De plus, un sous-ensemble de 8 sous-catégories est sélectionné pour une investigation plus approfondie, où des études de mesure correspondantes sont conçues et menées sur plusieurs LLMs largement utilisés. Les résultats de mesure indiquent que, en général, les modèles plus alignés tendent à mieux performer en termes de fiabilité globale. Cependant, l'efficacité de l'alignement varie selon les différentes catégories de fiabilité considérées. Cela souligne l'importance de mener des analyses plus fines, des tests et des améliorations continues sur l'alignement des LLMs. En mettant en lumière ces dimensions clés de la fiabilité des LLMs, cet article vise à fournir des insights précieux et des directives aux praticiens du domaine. Comprendre et aborder ces préoccupations sera crucial pour parvenir à un déploiement fiable et éthiquement solide des LLMs dans diverses applications.
English
Ensuring alignment, which refers to making models behave in accordance with
human intentions [1,2], has become a critical task before deploying large
language models (LLMs) in real-world applications. For instance, OpenAI devoted
six months to iteratively aligning GPT-4 before its release [3]. However, a
major challenge faced by practitioners is the lack of clear guidance on
evaluating whether LLM outputs align with social norms, values, and
regulations. This obstacle hinders systematic iteration and deployment of LLMs.
To address this issue, this paper presents a comprehensive survey of key
dimensions that are crucial to consider when assessing LLM trustworthiness. The
survey covers seven major categories of LLM trustworthiness: reliability,
safety, fairness, resistance to misuse, explainability and reasoning, adherence
to social norms, and robustness. Each major category is further divided into
several sub-categories, resulting in a total of 29 sub-categories.
Additionally, a subset of 8 sub-categories is selected for further
investigation, where corresponding measurement studies are designed and
conducted on several widely-used LLMs. The measurement results indicate that,
in general, more aligned models tend to perform better in terms of overall
trustworthiness. However, the effectiveness of alignment varies across the
different trustworthiness categories considered. This highlights the importance
of conducting more fine-grained analyses, testing, and making continuous
improvements on LLM alignment. By shedding light on these key dimensions of LLM
trustworthiness, this paper aims to provide valuable insights and guidance to
practitioners in the field. Understanding and addressing these concerns will be
crucial in achieving reliable and ethically sound deployment of LLMs in various
applications.