Выявление мелкозернистых значений и мнений в больших языковых моделях
Revealing Fine-Grained Values and Opinions in Large Language Models
June 27, 2024
Авторы: Dustin Wright, Arnav Arora, Nadav Borenstein, Srishti Yadav, Serge Belongie, Isabelle Augenstein
cs.AI
Аннотация
Раскрытие скрытых ценностей и мнений в больших языковых моделях (LLM) может помочь выявить предвзятости и смягчить потенциальный вред. Недавно это было рассмотрено путем представления LLM опросными вопросами и количественной оценки их позиций по морально и политически насыщенным утверждениям. Однако позиции, сгенерированные LLM, могут сильно варьироваться в зависимости от того, как они стимулируются, и существует множество способов аргументировать за или против данной позиции. В данной работе мы предлагаем решить эту проблему путем анализа большого и надежного набора данных из 156 тыс. ответов LLM на 62 утверждения Политического компаса (PCT), сгенерированных 6 LLM с использованием 420 вариаций подсказок. Мы проводим грубо-зернистый анализ сгенерированных позиций и детальный анализ обоснований в виде обычного текста для этих позиций. Для детального анализа мы предлагаем выявить тропы в ответах: семантически схожие фразы, которые повторяются и согласованы в различных подсказках, раскрывая закономерности в тексте, которые конкретный LLM склонен производить. Мы обнаружили, что демографические характеристики, добавленные к подсказкам, значительно влияют на результаты на PCT, отражая предвзятость, а также различия между результатами тестов при получении закрытых форм vs. открытых ответов. Кроме того, закономерности в обоснованиях обычного текста через тропы показывают, что аналогичные обоснования повторно генерируются в разных моделях и подсказках, даже при различных позициях.
English
Uncovering latent values and opinions in large language models (LLMs) can
help identify biases and mitigate potential harm. Recently, this has been
approached by presenting LLMs with survey questions and quantifying their
stances towards morally and politically charged statements. However, the
stances generated by LLMs can vary greatly depending on how they are prompted,
and there are many ways to argue for or against a given position. In this work,
we propose to address this by analysing a large and robust dataset of 156k LLM
responses to the 62 propositions of the Political Compass Test (PCT) generated
by 6 LLMs using 420 prompt variations. We perform coarse-grained analysis of
their generated stances and fine-grained analysis of the plain text
justifications for those stances. For fine-grained analysis, we propose to
identify tropes in the responses: semantically similar phrases that are
recurrent and consistent across different prompts, revealing patterns in the
text that a given LLM is prone to produce. We find that demographic features
added to prompts significantly affect outcomes on the PCT, reflecting bias, as
well as disparities between the results of tests when eliciting closed-form vs.
open domain responses. Additionally, patterns in the plain text rationales via
tropes show that similar justifications are repeatedly generated across models
and prompts even with disparate stances.Summary
AI-Generated Summary