B-score: Het detecteren van biases in grote taalmodellen met behulp van responsgeschiedenis

Samenvatting

Grote taalmodellen (LLMs) vertonen vaak sterke vooroordelen, bijvoorbeeld tegen vrouwen of in het voordeel van het getal 7. Wij onderzoeken of LLMs in staat zouden zijn om minder bevooroordeelde antwoorden te geven wanneer ze hun eerdere antwoorden op dezelfde vraag in een meerzijdig gesprek mogen observeren. Om te begrijpen welke soorten vragen meer bevooroordeelde antwoorden uitlokken, testen we LLMs op onze voorgestelde set vragen die 9 onderwerpen beslaan en tot drie typen behoren: (1) Subjectief; (2) Willekeurig; en (3) Objectief. Interessant genoeg zijn LLMs in staat om zichzelf te "ontvooroordelen" in een meerzijdig gesprek als reactie op vragen die een willekeurig, onbevooroordeeld antwoord zoeken. Verder stellen we B-score voor, een nieuwe maatstaf die effectief is in het detecteren van vooroordelen bij Subjectieve, Willekeurige, Makkelijke en Moeilijke vragen. Op MMLU, HLE en CSQA verbetert het gebruik van B-score de verificatienauwkeurigheid van LLM-antwoorden (d.w.z., het accepteren van correcte LLM-antwoorden en het afwijzen van incorrecte) aanzienlijk in vergelijking met het gebruik van verbaal uitgedrukte betrouwbaarheidsscores of de frequentie van eenzijdige antwoorden alleen. Code en gegevens zijn beschikbaar op: https://b-score.github.io.

English

Large language models (LLMs) often exhibit strong biases, e.g, against women or in favor of the number 7. We investigate whether LLMs would be able to output less biased answers when allowed to observe their prior answers to the same question in a multi-turn conversation. To understand which types of questions invite more biased answers, we test LLMs on our proposed set of questions that span 9 topics and belong to three types: (1) Subjective; (2) Random; and (3) Objective. Interestingly, LLMs are able to "de-bias" themselves in a multi-turn conversation in response to questions that seek an Random, unbiased answer. Furthermore, we propose B-score, a novel metric that is effective in detecting biases to Subjective, Random, Easy, and Hard questions. On MMLU, HLE, and CSQA, leveraging B-score substantially improves the verification accuracy of LLM answers (i.e, accepting LLM correct answers and rejecting incorrect ones) compared to using verbalized confidence scores or the frequency of single-turn answers alone. Code and data are available at: https://b-score.github.io.

B-score: Het detecteren van biases in grote taalmodellen met behulp van responsgeschiedenis

B-score: Detecting biases in large language models using response history

Samenvatting

Support