ChatPaper.aiChatPaper

Jenseits menschlicher Urteile: Eine bayesianische Bewertung der moralischen Werte von LLMs Verständnis

Beyond Human Judgment: A Bayesian Evaluation of LLMs' Moral Values Understanding

August 19, 2025
papers.authors: Maciej Skorski, Alina Landowska
cs.AI

papers.abstract

Wie verstehen große Sprachmodelle moralische Dimensionen im Vergleich zu Menschen? Diese erste groß angelegte Bayes'sche Bewertung von marktführenden Sprachmodellen liefert die Antwort. Im Gegensatz zu früheren Arbeiten, die deterministische Grundwahrheiten (Mehrheits- oder Inklusionsregeln) verwenden, modellieren wir die Uneinigkeit von Annotatoren, um sowohl aleatorische Unsicherheit (inhärente menschliche Uneinigkeit) als auch epistemische Unsicherheit (Modell-Domänensensitivität) zu erfassen. Wir bewerten führende Sprachmodelle (Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick) anhand von über 250.000 Annotationen von etwa 700 Annotatoren zu mehr als 100.000 Texten aus sozialen Medien, Nachrichten und Foren. Unser GPU-optimiertes Bayes'sches Framework verarbeitete über 1 Million Modellanfragen und zeigte, dass KI-Modelle typischerweise zu den besten 25 % der menschlichen Annotatoren gehören und eine deutlich überdurchschnittliche ausgewogene Genauigkeit erreichen. Wichtig ist, dass wir feststellen, dass KI weit weniger falsch negative Ergebnisse produziert als Menschen, was ihre sensibleren moralischen Erkennungsfähigkeiten unterstreicht.
English
How do large language models understand moral dimensions compared to humans? This first large-scale Bayesian evaluation of market-leading language models provides the answer. In contrast to prior work using deterministic ground truth (majority or inclusion rules), we model annotator disagreements to capture both aleatoric uncertainty (inherent human disagreement) and epistemic uncertainty (model domain sensitivity). We evaluate top language models (Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick) across 250K+ annotations from ~700 annotators on 100K+ texts spanning social media, news, and forums. Our GPU-optimized Bayesian framework processed 1M+ model queries, revealing that AI models typically rank among the top 25\% of human annotators, achieving much better-than-average balanced accuracy. Importantly, we find that AI produces far fewer false negatives than humans, highlighting their more sensitive moral detection capabilities.
PDF01August 20, 2025