Rivelare Valori e Opinioni a Grana Fine nei Modelli Linguistici di Grande Dimensione
Revealing Fine-Grained Values and Opinions in Large Language Models
June 27, 2024
Autori: Dustin Wright, Arnav Arora, Nadav Borenstein, Srishti Yadav, Serge Belongie, Isabelle Augenstein
cs.AI
Abstract
Scoprire valori e opinioni latenti nei grandi modelli linguistici (LLM) può aiutare a identificare pregiudizi e mitigare potenziali danni. Recentemente, questo è stato affrontato presentando agli LLM domande di sondaggio e quantificando le loro posizioni rispetto a dichiarazioni di natura morale e politica. Tuttavia, le posizioni generate dagli LLM possono variare notevolmente a seconda di come vengono sollecitati, e ci sono molti modi per argomentare a favore o contro una determinata posizione. In questo lavoro, proponiamo di affrontare questo problema analizzando un ampio e robusto dataset di 156k risposte di LLM alle 62 proposizioni del Political Compass Test (PCT) generate da 6 LLM utilizzando 420 variazioni di prompt. Eseguiamo un'analisi a grana grossa delle loro posizioni generate e un'analisi a grana fine delle giustificazioni in testo semplice per tali posizioni. Per l'analisi a grana fine, proponiamo di identificare tropi nelle risposte: frasi semanticamente simili che sono ricorrenti e coerenti tra diversi prompt, rivelando modelli nel testo che un determinato LLM tende a produrre. Troviamo che le caratteristiche demografiche aggiunte ai prompt influenzano significativamente i risultati del PCT, riflettendo pregiudizi, nonché disparità tra i risultati dei test quando si sollecitano risposte in forma chiusa rispetto a risposte in dominio aperto. Inoltre, i modelli nelle giustificazioni in testo semplice tramite tropi mostrano che giustificazioni simili vengono ripetutamente generate tra modelli e prompt anche con posizioni disparate.
English
Uncovering latent values and opinions in large language models (LLMs) can
help identify biases and mitigate potential harm. Recently, this has been
approached by presenting LLMs with survey questions and quantifying their
stances towards morally and politically charged statements. However, the
stances generated by LLMs can vary greatly depending on how they are prompted,
and there are many ways to argue for or against a given position. In this work,
we propose to address this by analysing a large and robust dataset of 156k LLM
responses to the 62 propositions of the Political Compass Test (PCT) generated
by 6 LLMs using 420 prompt variations. We perform coarse-grained analysis of
their generated stances and fine-grained analysis of the plain text
justifications for those stances. For fine-grained analysis, we propose to
identify tropes in the responses: semantically similar phrases that are
recurrent and consistent across different prompts, revealing patterns in the
text that a given LLM is prone to produce. We find that demographic features
added to prompts significantly affect outcomes on the PCT, reflecting bias, as
well as disparities between the results of tests when eliciting closed-form vs.
open domain responses. Additionally, patterns in the plain text rationales via
tropes show that similar justifications are repeatedly generated across models
and prompts even with disparate stances.