Fondamenti Morali dei Modelli Linguistici su Larga Scala

Abstract

La teoria delle fondamenta morali (MFT) è uno strumento di valutazione psicologica che scompone il ragionamento morale umano in cinque fattori, tra cui cura/danno, libertà/oppressione e sacralità/degradazione (Graham et al., 2009). Le persone differiscono nel peso che attribuiscono a queste dimensioni quando prendono decisioni morali, in parte a causa del loro background culturale e dell'ideologia politica. Poiché i grandi modelli linguistici (LLM) vengono addestrati su dataset raccolti da internet, possono riflettere i pregiudizi presenti in tali corpora. Questo articolo utilizza la MFT come lente per analizzare se i popolari LLM abbiano acquisito un pregiudizio verso un particolare insieme di valori morali. Analizziamo LLM noti e scopriamo che mostrano specifiche fondamenta morali, e dimostriamo come queste si relazionino alle fondamenta morali umane e alle affiliazioni politiche. Misuriamo inoltre la coerenza di questi pregiudizi, ovvero se variano fortemente a seconda del contesto in cui il modello viene sollecitato. Infine, dimostriamo che è possibile selezionare in modo avversario prompt che incoraggiano il modello a esibire un particolare insieme di fondamenta morali, e che ciò può influenzare il comportamento del modello su compiti successivi. Questi risultati aiutano a illustrare i potenziali rischi e le conseguenze non intenzionali degli LLM che assumono una particolare posizione morale.

English

Moral foundations theory (MFT) is a psychological assessment tool that decomposes human moral reasoning into five factors, including care/harm, liberty/oppression, and sanctity/degradation (Graham et al., 2009). People vary in the weight they place on these dimensions when making moral decisions, in part due to their cultural upbringing and political ideology. As large language models (LLMs) are trained on datasets collected from the internet, they may reflect the biases that are present in such corpora. This paper uses MFT as a lens to analyze whether popular LLMs have acquired a bias towards a particular set of moral values. We analyze known LLMs and find they exhibit particular moral foundations, and show how these relate to human moral foundations and political affiliations. We also measure the consistency of these biases, or whether they vary strongly depending on the context of how the model is prompted. Finally, we show that we can adversarially select prompts that encourage the moral to exhibit a particular set of moral foundations, and that this can affect the model's behavior on downstream tasks. These findings help illustrate the potential risks and unintended consequences of LLMs assuming a particular moral stance.

Fondamenti Morali dei Modelli Linguistici su Larga Scala

Moral Foundations of Large Language Models

Abstract

Support