Moralische Grundlagen großer Sprachmodelle
Moral Foundations of Large Language Models
October 23, 2023
Autoren: Marwa Abdulhai, Gregory Serapio-Garcia, Clément Crepy, Daria Valter, John Canny, Natasha Jaques
cs.AI
Zusammenfassung
Die Moral Foundations Theory (MFT) ist ein psychologisches Bewertungswerkzeug, das menschliches moralisches Denken in fünf Faktoren zerlegt, darunter Fürsorge/Schaden, Freiheit/Unterdrückung und Heiligkeit/Degradierung (Graham et al., 2009). Menschen unterscheiden sich in der Gewichtung, die sie diesen Dimensionen bei moralischen Entscheidungen beimessen, teilweise aufgrund ihrer kulturellen Prägung und politischen Ideologie. Da große Sprachmodelle (LLMs) auf Datensätzen trainiert werden, die aus dem Internet stammen, können sie die in solchen Korpora vorhandenen Verzerrungen widerspiegeln. In diesem Artikel verwenden wir MFT als Linse, um zu analysieren, ob populäre LLMs eine Verzerrung hin zu einem bestimmten Satz moralischer Werte entwickelt haben. Wir untersuchen bekannte LLMs und stellen fest, dass sie bestimmte moralische Grundlagen aufweisen, und zeigen, wie diese mit menschlichen moralischen Grundlagen und politischen Zugehörigkeiten zusammenhängen. Wir messen auch die Konsistenz dieser Verzerrungen, d. h., ob sie stark variieren, abhängig vom Kontext, in dem das Modell angeregt wird. Schließlich zeigen wir, dass wir adversarisch Anreize auswählen können, die das Modell dazu veranlassen, einen bestimmten Satz moralischer Grundlagen zu zeigen, und dass dies das Verhalten des Modells bei nachgelagerten Aufgaben beeinflussen kann. Diese Erkenntnisse helfen, die potenziellen Risiken und unbeabsichtigten Folgen zu veranschaulichen, die entstehen, wenn LLMs eine bestimmte moralische Haltung einnehmen.
English
Moral foundations theory (MFT) is a psychological assessment tool that
decomposes human moral reasoning into five factors, including care/harm,
liberty/oppression, and sanctity/degradation (Graham et al., 2009). People vary
in the weight they place on these dimensions when making moral decisions, in
part due to their cultural upbringing and political ideology. As large language
models (LLMs) are trained on datasets collected from the internet, they may
reflect the biases that are present in such corpora. This paper uses MFT as a
lens to analyze whether popular LLMs have acquired a bias towards a particular
set of moral values. We analyze known LLMs and find they exhibit particular
moral foundations, and show how these relate to human moral foundations and
political affiliations. We also measure the consistency of these biases, or
whether they vary strongly depending on the context of how the model is
prompted. Finally, we show that we can adversarially select prompts that
encourage the moral to exhibit a particular set of moral foundations, and that
this can affect the model's behavior on downstream tasks. These findings help
illustrate the potential risks and unintended consequences of LLMs assuming a
particular moral stance.