ChatPaper.aiChatPaper

BiasFreeBench : un Benchmark pour l'Atténuation des Biais dans les Réponses des Grands Modèles de Langage

BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses

September 30, 2025
papers.authors: Xin Xu, Xunzhi He, Churan Zhi, Ruizhe Chen, Julian McAuley, Zexue He
cs.AI

papers.abstract

Les études existantes sur les méthodes d'atténuation des biais pour les grands modèles de langage (LLMs) utilisent des bases de référence et des métriques variées pour évaluer les performances de débiaisage, ce qui entraîne des comparaisons incohérentes entre elles. De plus, leurs évaluations reposent principalement sur la comparaison des probabilités des LLMs dans des contextes biaisés et non biaisés, ce qui ignore l'écart entre ces évaluations et les cas d'utilisation réels où les utilisateurs interagissent avec les LLMs en lisant les réponses du modèle et s'attendent à des sorties équitables et sûres plutôt qu'aux probabilités des LLMs. Pour permettre une évaluation cohérente entre les méthodes de débiaisage et combler cet écart, nous introduisons BiasFreeBench, un benchmark empirique qui compare de manière exhaustive huit techniques principales d'atténuation des biais (couvrant quatre méthodes basées sur l'invite et quatre méthodes basées sur l'entraînement) dans deux scénarios de test (QCM et Q&A ouvert à tours multiples) en réorganisant les ensembles de données existants dans un cadre unifié de requête-réponse. Nous introduisons également une métrique au niveau de la réponse, le Score Sans Biais, pour mesurer dans quelle mesure les réponses des LLMs sont équitables, sûres et anti-stéréotypées. Les performances de débiaisage sont systématiquement comparées et analysées selon plusieurs dimensions clés : le paradigme d'invite vs. entraînement, la taille du modèle, et la généralisation de différentes stratégies d'entraînement à des types de biais non vus. Nous rendrons notre benchmark public, dans le but d'établir un banc d'essai unifié pour la recherche sur l'atténuation des biais.
English
Existing studies on bias mitigation methods for large language models (LLMs) use diverse baselines and metrics to evaluate debiasing performance, leading to inconsistent comparisons among them. Moreover, their evaluations are mostly based on the comparison between LLMs' probabilities of biased and unbiased contexts, which ignores the gap between such evaluations and real-world use cases where users interact with LLMs by reading model responses and expect fair and safe outputs rather than LLMs' probabilities. To enable consistent evaluation across debiasing methods and bridge this gap, we introduce BiasFreeBench, an empirical benchmark that comprehensively compares eight mainstream bias mitigation techniques (covering four prompting-based and four training-based methods) on two test scenarios (multi-choice QA and open-ended multi-turn QA) by reorganizing existing datasets into a unified query-response setting. We further introduce a response-level metric, Bias-Free Score, to measure the extent to which LLM responses are fair, safe, and anti-stereotypical. Debiasing performances are systematically compared and analyzed across key dimensions: the prompting vs. training paradigm, model size, and generalization of different training strategies to unseen bias types. We will publicly release our benchmark, aiming to establish a unified testbed for bias mitigation research.
PDF152October 2, 2025