B-score : Détection des biais dans les grands modèles de langage grâce à l'historique des réponses
B-score: Detecting biases in large language models using response history
May 24, 2025
papers.authors: An Vo, Mohammad Reza Taesiri, Daeyoung Kim, Anh Totti Nguyen
cs.AI
papers.abstract
Les grands modèles de langage (LLM) présentent souvent des biais marqués, par exemple contre les femmes ou en faveur du chiffre 7. Nous étudions si les LLM sont capables de produire des réponses moins biaisées lorsqu'ils peuvent observer leurs réponses précédentes à la même question dans une conversation à plusieurs tours. Pour comprendre quels types de questions suscitent des réponses plus biaisées, nous testons les LLM sur notre ensemble de questions proposé, qui couvre 9 thèmes et appartient à trois catégories : (1) Subjectives ; (2) Aléatoires ; et (3) Objectives. Fait intéressant, les LLM parviennent à se "débiaiser" dans une conversation à plusieurs tours en réponse à des questions qui cherchent une réponse aléatoire et non biaisée. Par ailleurs, nous proposons le B-score, une nouvelle métrique efficace pour détecter les biais dans les réponses à des questions Subjectives, Aléatoires, Faciles et Difficiles. Sur MMLU, HLE et CSQA, l'utilisation du B-score améliore considérablement la précision de vérification des réponses des LLM (c'est-à-dire accepter les réponses correctes et rejeter les incorrectes) par rapport à l'utilisation des scores de confiance verbalisés ou de la fréquence des réponses à un seul tour. Le code et les données sont disponibles à l'adresse : https://b-score.github.io.
English
Large language models (LLMs) often exhibit strong biases, e.g, against women
or in favor of the number 7. We investigate whether LLMs would be able to
output less biased answers when allowed to observe their prior answers to the
same question in a multi-turn conversation. To understand which types of
questions invite more biased answers, we test LLMs on our proposed set of
questions that span 9 topics and belong to three types: (1) Subjective; (2)
Random; and (3) Objective. Interestingly, LLMs are able to "de-bias" themselves
in a multi-turn conversation in response to questions that seek an Random,
unbiased answer. Furthermore, we propose B-score, a novel metric that is
effective in detecting biases to Subjective, Random, Easy, and Hard questions.
On MMLU, HLE, and CSQA, leveraging B-score substantially improves the
verification accuracy of LLM answers (i.e, accepting LLM correct answers and
rejecting incorrect ones) compared to using verbalized confidence scores or the
frequency of single-turn answers alone. Code and data are available at:
https://b-score.github.io.