Fondements moraux des grands modèles de langage

Résumé

La théorie des fondements moraux (MFT) est un outil d'évaluation psychologique qui décompose le raisonnement moral humain en cinq facteurs, incluant soin/nuisance, liberté/oppression et sacré/dégradation (Graham et al., 2009). Les individus varient dans l'importance qu'ils accordent à ces dimensions lorsqu'ils prennent des décisions morales, en partie en raison de leur éducation culturelle et de leur idéologie politique. Étant donné que les grands modèles de langage (LLMs) sont entraînés sur des ensembles de données collectés sur Internet, ils peuvent refléter les biais présents dans ces corpus. Cet article utilise la MFT comme une lentille pour analyser si les LLMs populaires ont acquis un biais en faveur d'un ensemble particulier de valeurs morales. Nous analysons des LLMs connus et constatons qu'ils présentent des fondements moraux spécifiques, et montrons comment ceux-ci se rapportent aux fondements moraux humains et aux affiliations politiques. Nous mesurons également la cohérence de ces biais, c'est-à-dire s'ils varient fortement en fonction du contexte dans lequel le modèle est sollicité. Enfin, nous montrons que nous pouvons sélectionner de manière antagoniste des prompts qui encouragent le modèle à adopter un ensemble particulier de fondements moraux, et que cela peut influencer le comportement du modèle sur des tâches ultérieures. Ces résultats aident à illustrer les risques potentiels et les conséquences imprévues des LLMs adoptant une position morale particulière.

English

Moral foundations theory (MFT) is a psychological assessment tool that decomposes human moral reasoning into five factors, including care/harm, liberty/oppression, and sanctity/degradation (Graham et al., 2009). People vary in the weight they place on these dimensions when making moral decisions, in part due to their cultural upbringing and political ideology. As large language models (LLMs) are trained on datasets collected from the internet, they may reflect the biases that are present in such corpora. This paper uses MFT as a lens to analyze whether popular LLMs have acquired a bias towards a particular set of moral values. We analyze known LLMs and find they exhibit particular moral foundations, and show how these relate to human moral foundations and political affiliations. We also measure the consistency of these biases, or whether they vary strongly depending on the context of how the model is prompted. Finally, we show that we can adversarially select prompts that encourage the moral to exhibit a particular set of moral foundations, and that this can affect the model's behavior on downstream tasks. These findings help illustrate the potential risks and unintended consequences of LLMs assuming a particular moral stance.

Fondements moraux des grands modèles de langage

Moral Foundations of Large Language Models

Résumé

Support