Enthüllung feingranularer Werte und Meinungen in großen Sprachmodellen.
Revealing Fine-Grained Values and Opinions in Large Language Models
June 27, 2024
Autoren: Dustin Wright, Arnav Arora, Nadav Borenstein, Srishti Yadav, Serge Belongie, Isabelle Augenstein
cs.AI
Zusammenfassung
Das Aufdecken latenter Werte und Meinungen in großen Sprachmodellen (LLMs) kann dazu beitragen, Voreingenommenheiten zu identifizieren und potenzielle Schäden zu mildern. In letzter Zeit wurde dies durch die Vorlage von Umfragen an LLMs und die Quantifizierung ihrer Haltungen zu moralisch und politisch aufgeladenen Aussagen angegangen. Die von LLMs generierten Haltungen können jedoch stark variieren, je nachdem, wie sie aufgefordert werden, und es gibt viele Möglichkeiten, für oder gegen eine bestimmte Position zu argumentieren. In dieser Arbeit schlagen wir vor, dies zu bewältigen, indem wir einen großen und robusten Datensatz von 156.000 LLM-Antworten auf die 62 Aussagen des Politischen Kompass Tests (PCT) analysieren, die von 6 LLMs unter Verwendung von 420 verschiedenen Aufforderungsvariationen generiert wurden. Wir führen eine grobkörnige Analyse ihrer generierten Haltungen und eine feinkörnige Analyse der reinen Textbegründungen für diese Haltungen durch. Für die feinkörnige Analyse schlagen wir vor, Tropen in den Antworten zu identifizieren: semantisch ähnliche Phrasen, die wiederkehrend und konsistent über verschiedene Aufforderungen hinweg sind und Muster im Text aufzeigen, die ein bestimmter LLM dazu neigt zu produzieren. Wir stellen fest, dass demografische Merkmale, die den Aufforderungen hinzugefügt werden, die Ergebnisse des PCT signifikant beeinflussen, was Voreingenommenheiten widerspiegelt, sowie Unterschiede zwischen den Ergebnissen von Tests, wenn geschlossene Form gegenüber offenen Domain-Antworten abgefragt werden. Darüber hinaus zeigen Muster in den reinen Textbegründungen über Tropen, dass ähnliche Rechtfertigungen selbst bei unterschiedlichen Haltungen wiederholt über Modelle und Aufforderungen hinweg generiert werden.
English
Uncovering latent values and opinions in large language models (LLMs) can
help identify biases and mitigate potential harm. Recently, this has been
approached by presenting LLMs with survey questions and quantifying their
stances towards morally and politically charged statements. However, the
stances generated by LLMs can vary greatly depending on how they are prompted,
and there are many ways to argue for or against a given position. In this work,
we propose to address this by analysing a large and robust dataset of 156k LLM
responses to the 62 propositions of the Political Compass Test (PCT) generated
by 6 LLMs using 420 prompt variations. We perform coarse-grained analysis of
their generated stances and fine-grained analysis of the plain text
justifications for those stances. For fine-grained analysis, we propose to
identify tropes in the responses: semantically similar phrases that are
recurrent and consistent across different prompts, revealing patterns in the
text that a given LLM is prone to produce. We find that demographic features
added to prompts significantly affect outcomes on the PCT, reflecting bias, as
well as disparities between the results of tests when eliciting closed-form vs.
open domain responses. Additionally, patterns in the plain text rationales via
tropes show that similar justifications are repeatedly generated across models
and prompts even with disparate stances.Summary
AI-Generated Summary