ChatPaper.aiChatPaper

Révéler les valeurs et opinions à granularité fine dans les grands modèles de langage

Revealing Fine-Grained Values and Opinions in Large Language Models

June 27, 2024
Auteurs: Dustin Wright, Arnav Arora, Nadav Borenstein, Srishti Yadav, Serge Belongie, Isabelle Augenstein
cs.AI

Résumé

Découvrir les valeurs et opinions latentes dans les grands modèles de langage (LLM) peut aider à identifier les biais et à atténuer les dommages potentiels. Récemment, cette approche a consisté à soumettre des questions d'enquête aux LLM et à quantifier leurs positions face à des déclarations moralement et politiquement chargées. Cependant, les positions générées par les LLM peuvent varier considérablement selon la formulation des invites, et il existe de nombreuses manières d'argumenter pour ou contre une position donnée. Dans ce travail, nous proposons de résoudre ce problème en analysant un vaste et robuste ensemble de données de 156 000 réponses de LLM aux 62 propositions du test du Compass Politique (PCT), générées par 6 LLM à l'aide de 420 variations d'invites. Nous effectuons une analyse grossière de leurs positions générées et une analyse fine des justifications en texte brut de ces positions. Pour l'analyse fine, nous proposons d'identifier des tropes dans les réponses : des phrases sémantiquement similaires qui sont récurrentes et cohérentes à travers différentes invites, révélant des motifs dans le texte qu'un LLM donné a tendance à produire. Nous constatons que les caractéristiques démographiques ajoutées aux invites affectent significativement les résultats du PCT, reflétant des biais, ainsi que des disparités entre les résultats des tests lors de l'extraction de réponses fermées par rapport à des réponses ouvertes. De plus, les motifs dans les justifications en texte brut via les tropes montrent que des justifications similaires sont générées de manière répétée à travers les modèles et les invites, même avec des positions divergentes.
English
Uncovering latent values and opinions in large language models (LLMs) can help identify biases and mitigate potential harm. Recently, this has been approached by presenting LLMs with survey questions and quantifying their stances towards morally and politically charged statements. However, the stances generated by LLMs can vary greatly depending on how they are prompted, and there are many ways to argue for or against a given position. In this work, we propose to address this by analysing a large and robust dataset of 156k LLM responses to the 62 propositions of the Political Compass Test (PCT) generated by 6 LLMs using 420 prompt variations. We perform coarse-grained analysis of their generated stances and fine-grained analysis of the plain text justifications for those stances. For fine-grained analysis, we propose to identify tropes in the responses: semantically similar phrases that are recurrent and consistent across different prompts, revealing patterns in the text that a given LLM is prone to produce. We find that demographic features added to prompts significantly affect outcomes on the PCT, reflecting bias, as well as disparities between the results of tests when eliciting closed-form vs. open domain responses. Additionally, patterns in the plain text rationales via tropes show that similar justifications are repeatedly generated across models and prompts even with disparate stances.

Summary

AI-Generated Summary

PDF161November 28, 2024