대규모 언어 모델에서 세분화된 가치관과 의견 드러내기
Revealing Fine-Grained Values and Opinions in Large Language Models
June 27, 2024
저자: Dustin Wright, Arnav Arora, Nadav Borenstein, Srishti Yadav, Serge Belongie, Isabelle Augenstein
cs.AI
초록
대규모 언어 모델(LLM)에 잠재된 가치관과 의견을 밝혀내는 것은 편향을 식별하고 잠재적 피해를 완화하는 데 도움이 될 수 있습니다. 최근에는 LLM에 설문 질문을 제시하고 도덕적, 정치적으로 민감한 주제에 대한 입장을 정량화하는 방식으로 이 문제에 접근했습니다. 그러나 LLM이 생성하는 입장은 프롬프트 방식에 따라 크게 달라질 수 있으며, 특정 입장을 지지하거나 반대하는 데는 다양한 논거가 존재합니다. 본 연구에서는 6개의 LLM이 420가지 프롬프트 변형을 사용하여 정치적 성향 테스트(PCT)의 62개 명제에 대해 생성한 156,000개의 응답 데이터셋을 분석하여 이 문제를 해결하고자 합니다. 우리는 생성된 입장에 대한 대략적인 분석과 해당 입장을 뒷받침하는 일반 텍스트 설명에 대한 세밀한 분석을 수행합니다. 세밀한 분석을 위해, 우리는 응답에서 트로프(trope)를 식별하는 방법을 제안합니다: 트로프는 다양한 프롬프트에서 반복적으로 나타나며 일관된 의미를 가진 구문으로, 특정 LLM이 생성하기 쉬운 텍스트 패턴을 드러냅니다. 우리는 프롬프트에 추가된 인구통계학적 특성이 PCT 결과에 상당한 영향을 미치며, 이는 편향을 반영할 뿐만 아니라 폐쇄형 응답과 개방형 응답을 유도할 때의 테스트 결과 간 차이를 보여줌을 발견했습니다. 또한, 트로프를 통한 일반 텍스트 논리에서의 패턴은 모델과 프롬프트가 다르더라도 유사한 근거가 반복적으로 생성됨을 보여줍니다.
English
Uncovering latent values and opinions in large language models (LLMs) can
help identify biases and mitigate potential harm. Recently, this has been
approached by presenting LLMs with survey questions and quantifying their
stances towards morally and politically charged statements. However, the
stances generated by LLMs can vary greatly depending on how they are prompted,
and there are many ways to argue for or against a given position. In this work,
we propose to address this by analysing a large and robust dataset of 156k LLM
responses to the 62 propositions of the Political Compass Test (PCT) generated
by 6 LLMs using 420 prompt variations. We perform coarse-grained analysis of
their generated stances and fine-grained analysis of the plain text
justifications for those stances. For fine-grained analysis, we propose to
identify tropes in the responses: semantically similar phrases that are
recurrent and consistent across different prompts, revealing patterns in the
text that a given LLM is prone to produce. We find that demographic features
added to prompts significantly affect outcomes on the PCT, reflecting bias, as
well as disparities between the results of tests when eliciting closed-form vs.
open domain responses. Additionally, patterns in the plain text rationales via
tropes show that similar justifications are repeatedly generated across models
and prompts even with disparate stances.Summary
AI-Generated Summary