Het onthullen van fijnmazige waarden en meningen in grote taalmodellen

Samenvatting

Het blootleggen van latente waarden en meningen in grote taalmodellen (LLMs) kan helpen om vooroordelen te identificeren en mogelijke schade te beperken. Recentelijk is dit benaderd door LLMs enquêtevragen voor te leggen en hun standpunten ten opzichte van moreel en politiek geladen uitspraken te kwantificeren. Echter kunnen de standpunten die door LLMs worden gegenereerd sterk variëren afhankelijk van hoe ze worden geprompt, en er zijn vele manieren om voor of tegen een bepaalde positie te argumenteren. In dit werk stellen we voor om dit aan te pakken door een grote en robuuste dataset van 156k LLM-reacties op de 62 stellingen van de Political Compass Test (PCT) te analyseren, gegenereerd door 6 LLMs met behulp van 420 promptvariaties. We voeren een grofkorrelige analyse uit van hun gegenereerde standpunten en een fijnkorrelige analyse van de tekstuele rechtvaardigingen voor die standpunten. Voor de fijnkorrelige analyse stellen we voor om tropen in de reacties te identificeren: semantisch vergelijkbare zinnen die terugkerend en consistent zijn over verschillende prompts, wat patronen in de tekst onthult die een bepaald LLM geneigd is te produceren. We constateren dat demografische kenmerken die aan prompts worden toegevoegd de uitkomsten op de PCT significant beïnvloeden, wat vooroordelen weerspiegelt, evenals verschillen tussen de resultaten van tests bij het oproepen van gesloten versus open domeinreacties. Daarnaast tonen patronen in de tekstuele rechtvaardigingen via tropen aan dat vergelijkbare rechtvaardigingen herhaaldelijk worden gegenereerd over modellen en prompts heen, zelfs bij uiteenlopende standpunten.

English

Uncovering latent values and opinions in large language models (LLMs) can help identify biases and mitigate potential harm. Recently, this has been approached by presenting LLMs with survey questions and quantifying their stances towards morally and politically charged statements. However, the stances generated by LLMs can vary greatly depending on how they are prompted, and there are many ways to argue for or against a given position. In this work, we propose to address this by analysing a large and robust dataset of 156k LLM responses to the 62 propositions of the Political Compass Test (PCT) generated by 6 LLMs using 420 prompt variations. We perform coarse-grained analysis of their generated stances and fine-grained analysis of the plain text justifications for those stances. For fine-grained analysis, we propose to identify tropes in the responses: semantically similar phrases that are recurrent and consistent across different prompts, revealing patterns in the text that a given LLM is prone to produce. We find that demographic features added to prompts significantly affect outcomes on the PCT, reflecting bias, as well as disparities between the results of tests when eliciting closed-form vs. open domain responses. Additionally, patterns in the plain text rationales via tropes show that similar justifications are repeatedly generated across models and prompts even with disparate stances.

Het onthullen van fijnmazige waarden en meningen in grote taalmodellen

Revealing Fine-Grained Values and Opinions in Large Language Models

Samenvatting

Support