Fondamenti Morali dei Modelli Linguistici su Larga Scala
Moral Foundations of Large Language Models
October 23, 2023
Autori: Marwa Abdulhai, Gregory Serapio-Garcia, Clément Crepy, Daria Valter, John Canny, Natasha Jaques
cs.AI
Abstract
La teoria delle fondamenta morali (MFT) è uno strumento di valutazione psicologica che scompone il ragionamento morale umano in cinque fattori, tra cui cura/danno, libertà/oppressione e sacralità/degradazione (Graham et al., 2009). Le persone differiscono nel peso che attribuiscono a queste dimensioni quando prendono decisioni morali, in parte a causa del loro background culturale e dell'ideologia politica. Poiché i grandi modelli linguistici (LLM) vengono addestrati su dataset raccolti da internet, possono riflettere i pregiudizi presenti in tali corpora. Questo articolo utilizza la MFT come lente per analizzare se i popolari LLM abbiano acquisito un pregiudizio verso un particolare insieme di valori morali. Analizziamo LLM noti e scopriamo che mostrano specifiche fondamenta morali, e dimostriamo come queste si relazionino alle fondamenta morali umane e alle affiliazioni politiche. Misuriamo inoltre la coerenza di questi pregiudizi, ovvero se variano fortemente a seconda del contesto in cui il modello viene sollecitato. Infine, dimostriamo che è possibile selezionare in modo avversario prompt che incoraggiano il modello a esibire un particolare insieme di fondamenta morali, e che ciò può influenzare il comportamento del modello su compiti successivi. Questi risultati aiutano a illustrare i potenziali rischi e le conseguenze non intenzionali degli LLM che assumono una particolare posizione morale.
English
Moral foundations theory (MFT) is a psychological assessment tool that
decomposes human moral reasoning into five factors, including care/harm,
liberty/oppression, and sanctity/degradation (Graham et al., 2009). People vary
in the weight they place on these dimensions when making moral decisions, in
part due to their cultural upbringing and political ideology. As large language
models (LLMs) are trained on datasets collected from the internet, they may
reflect the biases that are present in such corpora. This paper uses MFT as a
lens to analyze whether popular LLMs have acquired a bias towards a particular
set of moral values. We analyze known LLMs and find they exhibit particular
moral foundations, and show how these relate to human moral foundations and
political affiliations. We also measure the consistency of these biases, or
whether they vary strongly depending on the context of how the model is
prompted. Finally, we show that we can adversarially select prompts that
encourage the moral to exhibit a particular set of moral foundations, and that
this can affect the model's behavior on downstream tasks. These findings help
illustrate the potential risks and unintended consequences of LLMs assuming a
particular moral stance.