Het onthullen van fijnmazige waarden en meningen in grote taalmodellen
Revealing Fine-Grained Values and Opinions in Large Language Models
June 27, 2024
Auteurs: Dustin Wright, Arnav Arora, Nadav Borenstein, Srishti Yadav, Serge Belongie, Isabelle Augenstein
cs.AI
Samenvatting
Het blootleggen van latente waarden en meningen in grote taalmodellen (LLMs) kan helpen om vooroordelen te identificeren en mogelijke schade te beperken. Recentelijk is dit benaderd door LLMs enquêtevragen voor te leggen en hun standpunten ten opzichte van moreel en politiek geladen uitspraken te kwantificeren. Echter kunnen de standpunten die door LLMs worden gegenereerd sterk variëren afhankelijk van hoe ze worden geprompt, en er zijn vele manieren om voor of tegen een bepaalde positie te argumenteren. In dit werk stellen we voor om dit aan te pakken door een grote en robuuste dataset van 156k LLM-reacties op de 62 stellingen van de Political Compass Test (PCT) te analyseren, gegenereerd door 6 LLMs met behulp van 420 promptvariaties. We voeren een grofkorrelige analyse uit van hun gegenereerde standpunten en een fijnkorrelige analyse van de tekstuele rechtvaardigingen voor die standpunten. Voor de fijnkorrelige analyse stellen we voor om tropen in de reacties te identificeren: semantisch vergelijkbare zinnen die terugkerend en consistent zijn over verschillende prompts, wat patronen in de tekst onthult die een bepaald LLM geneigd is te produceren. We constateren dat demografische kenmerken die aan prompts worden toegevoegd de uitkomsten op de PCT significant beïnvloeden, wat vooroordelen weerspiegelt, evenals verschillen tussen de resultaten van tests bij het oproepen van gesloten versus open domeinreacties. Daarnaast tonen patronen in de tekstuele rechtvaardigingen via tropen aan dat vergelijkbare rechtvaardigingen herhaaldelijk worden gegenereerd over modellen en prompts heen, zelfs bij uiteenlopende standpunten.
English
Uncovering latent values and opinions in large language models (LLMs) can
help identify biases and mitigate potential harm. Recently, this has been
approached by presenting LLMs with survey questions and quantifying their
stances towards morally and politically charged statements. However, the
stances generated by LLMs can vary greatly depending on how they are prompted,
and there are many ways to argue for or against a given position. In this work,
we propose to address this by analysing a large and robust dataset of 156k LLM
responses to the 62 propositions of the Political Compass Test (PCT) generated
by 6 LLMs using 420 prompt variations. We perform coarse-grained analysis of
their generated stances and fine-grained analysis of the plain text
justifications for those stances. For fine-grained analysis, we propose to
identify tropes in the responses: semantically similar phrases that are
recurrent and consistent across different prompts, revealing patterns in the
text that a given LLM is prone to produce. We find that demographic features
added to prompts significantly affect outcomes on the PCT, reflecting bias, as
well as disparities between the results of tests when eliciting closed-form vs.
open domain responses. Additionally, patterns in the plain text rationales via
tropes show that similar justifications are repeatedly generated across models
and prompts even with disparate stances.