B-score: Het detecteren van biases in grote taalmodellen met behulp van responsgeschiedenis
B-score: Detecting biases in large language models using response history
May 24, 2025
Auteurs: An Vo, Mohammad Reza Taesiri, Daeyoung Kim, Anh Totti Nguyen
cs.AI
Samenvatting
Grote taalmodellen (LLMs) vertonen vaak sterke vooroordelen, bijvoorbeeld tegen vrouwen of in het voordeel van het getal 7. Wij onderzoeken of LLMs in staat zouden zijn om minder bevooroordeelde antwoorden te geven wanneer ze hun eerdere antwoorden op dezelfde vraag in een meerzijdig gesprek mogen observeren. Om te begrijpen welke soorten vragen meer bevooroordeelde antwoorden uitlokken, testen we LLMs op onze voorgestelde set vragen die 9 onderwerpen beslaan en tot drie typen behoren: (1) Subjectief; (2) Willekeurig; en (3) Objectief. Interessant genoeg zijn LLMs in staat om zichzelf te "ontvooroordelen" in een meerzijdig gesprek als reactie op vragen die een willekeurig, onbevooroordeeld antwoord zoeken. Verder stellen we B-score voor, een nieuwe maatstaf die effectief is in het detecteren van vooroordelen bij Subjectieve, Willekeurige, Makkelijke en Moeilijke vragen. Op MMLU, HLE en CSQA verbetert het gebruik van B-score de verificatienauwkeurigheid van LLM-antwoorden (d.w.z., het accepteren van correcte LLM-antwoorden en het afwijzen van incorrecte) aanzienlijk in vergelijking met het gebruik van verbaal uitgedrukte betrouwbaarheidsscores of de frequentie van eenzijdige antwoorden alleen. Code en gegevens zijn beschikbaar op: https://b-score.github.io.
English
Large language models (LLMs) often exhibit strong biases, e.g, against women
or in favor of the number 7. We investigate whether LLMs would be able to
output less biased answers when allowed to observe their prior answers to the
same question in a multi-turn conversation. To understand which types of
questions invite more biased answers, we test LLMs on our proposed set of
questions that span 9 topics and belong to three types: (1) Subjective; (2)
Random; and (3) Objective. Interestingly, LLMs are able to "de-bias" themselves
in a multi-turn conversation in response to questions that seek an Random,
unbiased answer. Furthermore, we propose B-score, a novel metric that is
effective in detecting biases to Subjective, Random, Easy, and Hard questions.
On MMLU, HLE, and CSQA, leveraging B-score substantially improves the
verification accuracy of LLM answers (i.e, accepting LLM correct answers and
rejecting incorrect ones) compared to using verbalized confidence scores or the
frequency of single-turn answers alone. Code and data are available at:
https://b-score.github.io.