ChatPaper.aiChatPaper

Fundamentos Morales de los Modelos de Lenguaje a Gran Escala

Moral Foundations of Large Language Models

October 23, 2023
Autores: Marwa Abdulhai, Gregory Serapio-Garcia, Clément Crepy, Daria Valter, John Canny, Natasha Jaques
cs.AI

Resumen

La teoría de los fundamentos morales (MFT, por sus siglas en inglés) es una herramienta de evaluación psicológica que descompone el razonamiento moral humano en cinco factores, incluyendo cuidado/daño, libertad/opresión y santidad/degradación (Graham et al., 2009). Las personas varían en el peso que asignan a estas dimensiones al tomar decisiones morales, en parte debido a su educación cultural e ideología política. Dado que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se entrenan con conjuntos de datos recopilados de internet, pueden reflejar los sesgos presentes en dichos corpus. Este artículo utiliza la MFT como lente para analizar si los LLMs populares han adquirido un sesgo hacia un conjunto particular de valores morales. Analizamos LLMs conocidos y encontramos que exhiben fundamentos morales específicos, mostrando cómo estos se relacionan con los fundamentos morales humanos y las afiliaciones políticas. También medimos la consistencia de estos sesgos, es decir, si varían fuertemente dependiendo del contexto en el que se solicita al modelo. Finalmente, demostramos que es posible seleccionar de manera adversaria indicaciones que fomentan que el modelo exhiba un conjunto particular de fundamentos morales, y que esto puede afectar el comportamiento del modelo en tareas posteriores. Estos hallazgos ayudan a ilustrar los riesgos potenciales y las consecuencias no deseadas de que los LLMs asuman una postura moral particular.
English
Moral foundations theory (MFT) is a psychological assessment tool that decomposes human moral reasoning into five factors, including care/harm, liberty/oppression, and sanctity/degradation (Graham et al., 2009). People vary in the weight they place on these dimensions when making moral decisions, in part due to their cultural upbringing and political ideology. As large language models (LLMs) are trained on datasets collected from the internet, they may reflect the biases that are present in such corpora. This paper uses MFT as a lens to analyze whether popular LLMs have acquired a bias towards a particular set of moral values. We analyze known LLMs and find they exhibit particular moral foundations, and show how these relate to human moral foundations and political affiliations. We also measure the consistency of these biases, or whether they vary strongly depending on the context of how the model is prompted. Finally, we show that we can adversarially select prompts that encourage the moral to exhibit a particular set of moral foundations, and that this can affect the model's behavior on downstream tasks. These findings help illustrate the potential risks and unintended consequences of LLMs assuming a particular moral stance.
PDF11December 15, 2024