BEATS: Bias-Evaluierungs- und Bewertungstestsuite für große Sprachmodelle
BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models
March 31, 2025
Autoren: Alok Abhishek, Lisa Erickson, Tushar Bandopadhyay
cs.AI
Zusammenfassung
In dieser Forschung stellen wir BEATS vor, ein neuartiges Framework zur Bewertung von Bias, Ethik, Fairness und Faktizität in Large Language Models (LLMs). Aufbauend auf dem BEATS-Framework präsentieren wir einen Bias-Benchmark für LLMs, der die Leistung anhand von 29 verschiedenen Metriken misst. Diese Metriken umfassen ein breites Spektrum an Merkmalen, darunter demografische, kognitive und soziale Verzerrungen sowie Maßstäbe für ethisches Denken, Gruppenfairness und das Risiko von Falschinformationen im Zusammenhang mit Faktizität. Diese Metriken ermöglichen eine quantitative Bewertung des Ausmaßes, in dem von LLMs generierte Antworten gesellschaftliche Vorurteile perpetuieren könnten, die systemische Ungleichheiten verstärken oder ausweiten. Um eine hohe Punktzahl in diesem Benchmark zu erreichen, muss ein LLM in seinen Antworten ein sehr ausgewogenes Verhalten zeigen, was ihn zu einem strengen Standard für die verantwortungsbewusste Bewertung von KI macht. Empirische Ergebnisse auf Basis der Daten unseres Experiments zeigen, dass 37,65 % der von führenden Modellen der Industrie erzeugten Outputs eine Form von Bias enthielten, was ein erhebliches Risiko bei der Verwendung dieser Modelle in kritischen Entscheidungssystemen verdeutlicht. Das BEATS-Framework und der Benchmark bieten eine skalierbare und statistisch fundierte Methodik, um LLMs zu bewerten, Faktoren zu diagnostizieren, die Bias verursachen, und Strategien zur Minderung zu entwickeln. Mit dem BEATS-Framework verfolgen wir das Ziel, die Entwicklung von sozial verantwortungsbewussteren und ethisch ausgerichteten KI-Modellen zu unterstützen.
English
In this research, we introduce BEATS, a novel framework for evaluating Bias,
Ethics, Fairness, and Factuality in Large Language Models (LLMs). Building upon
the BEATS framework, we present a bias benchmark for LLMs that measure
performance across 29 distinct metrics. These metrics span a broad range of
characteristics, including demographic, cognitive, and social biases, as well
as measures of ethical reasoning, group fairness, and factuality related
misinformation risk. These metrics enable a quantitative assessment of the
extent to which LLM generated responses may perpetuate societal prejudices that
reinforce or expand systemic inequities. To achieve a high score on this
benchmark a LLM must show very equitable behavior in their responses, making it
a rigorous standard for responsible AI evaluation. Empirical results based on
data from our experiment show that, 37.65\% of outputs generated by industry
leading models contained some form of bias, highlighting a substantial risk of
using these models in critical decision making systems. BEATS framework and
benchmark offer a scalable and statistically rigorous methodology to benchmark
LLMs, diagnose factors driving biases, and develop mitigation strategies. With
the BEATS framework, our goal is to help the development of more socially
responsible and ethically aligned AI models.Summary
AI-Generated Summary