ChatPaper.aiChatPaper

Fundamentos Morais dos Modelos de Linguagem de Grande Escala

Moral Foundations of Large Language Models

October 23, 2023
Autores: Marwa Abdulhai, Gregory Serapio-Garcia, Clément Crepy, Daria Valter, John Canny, Natasha Jaques
cs.AI

Resumo

A teoria dos fundamentos morais (MFT) é uma ferramenta de avaliação psicológica que decompõe o raciocínio moral humano em cinco fatores, incluindo cuidado/dano, liberdade/opressão e santidade/degradação (Graham et al., 2009). As pessoas variam no peso que atribuem a essas dimensões ao tomar decisões morais, em parte devido à sua criação cultural e ideologia política. Como os grandes modelos de linguagem (LLMs) são treinados em conjuntos de dados coletados da internet, eles podem refletir os vieses presentes nesses corpora. Este artigo utiliza a MFT como uma lente para analisar se os LLMs populares adquiriram um viés em direção a um conjunto particular de valores morais. Analisamos LLMs conhecidos e descobrimos que eles exibem fundamentos morais específicos, mostrando como esses se relacionam com os fundamentos morais humanos e afiliações políticas. Também medimos a consistência desses vieses, ou seja, se eles variam fortemente dependendo do contexto em que o modelo é solicitado. Por fim, demonstramos que podemos selecionar adversariamente prompts que incentivam o modelo a exibir um conjunto específico de fundamentos morais, e que isso pode afetar o comportamento do modelo em tarefas subsequentes. Essas descobertas ajudam a ilustrar os riscos potenciais e as consequências não intencionais de LLMs assumirem uma postura moral particular.
English
Moral foundations theory (MFT) is a psychological assessment tool that decomposes human moral reasoning into five factors, including care/harm, liberty/oppression, and sanctity/degradation (Graham et al., 2009). People vary in the weight they place on these dimensions when making moral decisions, in part due to their cultural upbringing and political ideology. As large language models (LLMs) are trained on datasets collected from the internet, they may reflect the biases that are present in such corpora. This paper uses MFT as a lens to analyze whether popular LLMs have acquired a bias towards a particular set of moral values. We analyze known LLMs and find they exhibit particular moral foundations, and show how these relate to human moral foundations and political affiliations. We also measure the consistency of these biases, or whether they vary strongly depending on the context of how the model is prompted. Finally, we show that we can adversarially select prompts that encourage the moral to exhibit a particular set of moral foundations, and that this can affect the model's behavior on downstream tasks. These findings help illustrate the potential risks and unintended consequences of LLMs assuming a particular moral stance.
PDF11February 8, 2026