ChatPaper.aiChatPaper

Моральные основы больших языковых моделей

Moral Foundations of Large Language Models

October 23, 2023
Авторы: Marwa Abdulhai, Gregory Serapio-Garcia, Clément Crepy, Daria Valter, John Canny, Natasha Jaques
cs.AI

Аннотация

Теория моральных основ (MFT) представляет собой психологический инструмент оценки, который разлагает моральные рассуждения человека на пять факторов, включая забота/вред, свобода/угнетение и святость/деградация (Graham et al., 2009). Люди различаются по значимости, которую они придают этим измерениям при принятии моральных решений, отчасти из-за их культурного воспитания и политической идеологии. Поскольку крупные языковые модели (LLM) обучаются на наборах данных, собранных из интернета, они могут отражать предубеждения, присутствующие в таких корпусах. В данной статье MFT используется как инструмент для анализа того, приобрели ли популярные LLM предубеждения в пользу определённого набора моральных ценностей. Мы анализируем известные LLM и обнаруживаем, что они демонстрируют определённые моральные основы, а также показываем, как они соотносятся с моральными основами людей и их политической принадлежностью. Мы также измеряем согласованность этих предубеждений, то есть насколько сильно они варьируются в зависимости от контекста, в котором модель получает запрос. Наконец, мы показываем, что можно намеренно подбирать запросы, которые побуждают модель демонстрировать определённый набор моральных основ, и что это может повлиять на поведение модели в последующих задачах. Эти результаты помогают проиллюстрировать потенциальные риски и непреднамеренные последствия того, что LLM принимают определённую моральную позицию.
English
Moral foundations theory (MFT) is a psychological assessment tool that decomposes human moral reasoning into five factors, including care/harm, liberty/oppression, and sanctity/degradation (Graham et al., 2009). People vary in the weight they place on these dimensions when making moral decisions, in part due to their cultural upbringing and political ideology. As large language models (LLMs) are trained on datasets collected from the internet, they may reflect the biases that are present in such corpora. This paper uses MFT as a lens to analyze whether popular LLMs have acquired a bias towards a particular set of moral values. We analyze known LLMs and find they exhibit particular moral foundations, and show how these relate to human moral foundations and political affiliations. We also measure the consistency of these biases, or whether they vary strongly depending on the context of how the model is prompted. Finally, we show that we can adversarially select prompts that encourage the moral to exhibit a particular set of moral foundations, and that this can affect the model's behavior on downstream tasks. These findings help illustrate the potential risks and unintended consequences of LLMs assuming a particular moral stance.
PDF11December 15, 2024