Morele Fundamenten van Grote Taalmodellen

Samenvatting

De morele fundamenten theorie (MFT) is een psychologisch beoordelingsinstrument dat menselijk moreel redeneren ontleedt in vijf factoren, waaronder zorg/schade, vrijheid/onderdrukking en heiligheid/degradatie (Graham et al., 2009). Mensen verschillen in de mate waarin ze deze dimensies meewegen bij het nemen van morele beslissingen, deels vanwege hun culturele opvoeding en politieke ideologie. Omdat grote taalmmodellen (LLMs) getraind worden op datasets die van het internet zijn verzameld, kunnen ze de vooroordelen weerspiegelen die in dergelijke corpora aanwezig zijn. Dit artikel gebruikt MFT als een lens om te analyseren of populaire LLMs een vooroordeel hebben ontwikkeld ten opzichte van een bepaalde set morele waarden. We analyseren bekende LLMs en constateren dat ze specifieke morele fundamenten vertonen, en laten zien hoe deze zich verhouden tot menselijke morele fundamenten en politieke affiliaties. We meten ook de consistentie van deze vooroordelen, of ze sterk variëren afhankelijk van de context waarin het model wordt geprompt. Tot slot tonen we aan dat we op een adversariale manier prompts kunnen selecteren die het model aanmoedigen om een bepaalde set morele fundamenten te vertonen, en dat dit het gedrag van het model op downstream taken kan beïnvloeden. Deze bevindingen helpen de potentiële risico's en onbedoelde gevolgen te illustreren van LLMs die een bepaalde morele positie innemen.

English

Moral foundations theory (MFT) is a psychological assessment tool that decomposes human moral reasoning into five factors, including care/harm, liberty/oppression, and sanctity/degradation (Graham et al., 2009). People vary in the weight they place on these dimensions when making moral decisions, in part due to their cultural upbringing and political ideology. As large language models (LLMs) are trained on datasets collected from the internet, they may reflect the biases that are present in such corpora. This paper uses MFT as a lens to analyze whether popular LLMs have acquired a bias towards a particular set of moral values. We analyze known LLMs and find they exhibit particular moral foundations, and show how these relate to human moral foundations and political affiliations. We also measure the consistency of these biases, or whether they vary strongly depending on the context of how the model is prompted. Finally, we show that we can adversarially select prompts that encourage the moral to exhibit a particular set of moral foundations, and that this can affect the model's behavior on downstream tasks. These findings help illustrate the potential risks and unintended consequences of LLMs assuming a particular moral stance.

Morele Fundamenten van Grote Taalmodellen

Moral Foundations of Large Language Models

Samenvatting

Support