ChatPaper.aiChatPaper

Au-delà du jugement humain : une évaluation bayésienne des valeurs morales des LLM Comprendre

Beyond Human Judgment: A Bayesian Evaluation of LLMs' Moral Values Understanding

August 19, 2025
papers.authors: Maciej Skorski, Alina Landowska
cs.AI

papers.abstract

Comment les grands modèles de langage comprennent-ils les dimensions morales par rapport aux humains ? Cette première évaluation bayésienne à grande échelle des modèles de langage leaders du marché apporte la réponse. Contrairement aux travaux antérieurs utilisant une vérité terrain déterministe (règles de majorité ou d'inclusion), nous modélisons les désaccords entre annotateurs pour capturer à la fois l'incertitude aléatoire (désaccord humain inhérent) et l'incertitude épistémique (sensibilité du modèle au domaine). Nous évaluons les meilleurs modèles de langage (Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick) sur plus de 250 000 annotations provenant d'environ 700 annotateurs pour plus de 100 000 textes couvrant les réseaux sociaux, les actualités et les forums. Notre cadre bayésien optimisé pour GPU a traité plus d'un million de requêtes de modèles, révélant que les modèles d'IA se classent généralement parmi les 25 % supérieurs des annotateurs humains, atteignant une précision équilibrée bien supérieure à la moyenne. Fait important, nous constatons que l'IA produit beaucoup moins de faux négatifs que les humains, mettant en évidence leurs capacités de détection morale plus sensibles.
English
How do large language models understand moral dimensions compared to humans? This first large-scale Bayesian evaluation of market-leading language models provides the answer. In contrast to prior work using deterministic ground truth (majority or inclusion rules), we model annotator disagreements to capture both aleatoric uncertainty (inherent human disagreement) and epistemic uncertainty (model domain sensitivity). We evaluate top language models (Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick) across 250K+ annotations from ~700 annotators on 100K+ texts spanning social media, news, and forums. Our GPU-optimized Bayesian framework processed 1M+ model queries, revealing that AI models typically rank among the top 25\% of human annotators, achieving much better-than-average balanced accuracy. Importantly, we find that AI produces far fewer false negatives than humans, highlighting their more sensitive moral detection capabilities.
PDF11August 20, 2025