Voorbij Menselijk Oordeel: Een Bayesiaanse Evaluatie van de Morele Waarden van LLM's Begrip
Beyond Human Judgment: A Bayesian Evaluation of LLMs' Moral Values Understanding
August 19, 2025
Auteurs: Maciej Skorski, Alina Landowska
cs.AI
Samenvatting
Hoe begrijpen grote taalmodellen morele dimensies in vergelijking met mensen?
Deze eerste grootschalige Bayesiaanse evaluatie van marktleidende taalmodellen
geeft het antwoord. In tegenstelling tot eerder werk dat deterministische grondwaarheden gebruikt
(meerderheids- of inclusieregels), modelleren we annotatoronenigheid om zowel
aleatorische onzekerheid (intrinsieke menselijke onenigheid) als epistemische onzekerheid
(modelgevoeligheid voor het domein) vast te leggen. We evalueren toonaangevende taalmodellen (Claude Sonnet 4,
DeepSeek-V3, Llama 4 Maverick) op basis van meer dan 250K annotaties van ongeveer 700 annotators voor
meer dan 100K teksten uit sociale media, nieuws en forums.
Ons GPU-geoptimaliseerde Bayesiaanse framework verwerkte meer dan 1M modelquery's, wat aantoont
dat AI-modellen doorgaans tot de top 25% van menselijke annotators behoren, met
een veel beter-dan-gemiddelde gebalanceerde nauwkeurigheid. Belangrijk is dat we ontdekken dat AI
aanzienlijk minder fout-negatieven produceert dan mensen, wat hun gevoeligere
morele detectievermogen benadrukt.
English
How do large language models understand moral dimensions compared to humans?
This first large-scale Bayesian evaluation of market-leading language models
provides the answer. In contrast to prior work using deterministic ground truth
(majority or inclusion rules), we model annotator disagreements to capture both
aleatoric uncertainty (inherent human disagreement) and epistemic uncertainty
(model domain sensitivity). We evaluate top language models (Claude Sonnet 4,
DeepSeek-V3, Llama 4 Maverick) across 250K+ annotations from ~700 annotators on
100K+ texts spanning social media, news, and forums.
Our GPU-optimized Bayesian framework processed 1M+ model queries, revealing
that AI models typically rank among the top 25\% of human annotators, achieving
much better-than-average balanced accuracy. Importantly, we find that AI
produces far fewer false negatives than humans, highlighting their more
sensitive moral detection capabilities.