Más allá del juicio humano: una evaluación bayesiana de los valores morales de los LLM Comprensión
Beyond Human Judgment: A Bayesian Evaluation of LLMs' Moral Values Understanding
August 19, 2025
Autores: Maciej Skorski, Alina Landowska
cs.AI
Resumen
¿Cómo comprenden los modelos de lenguaje de gran escala las dimensiones morales en comparación con los humanos?
Esta primera evaluación bayesiana a gran escala de los principales modelos de lenguaje del mercado proporciona la respuesta. A diferencia de trabajos previos que utilizaban una verdad de referencia determinista (reglas de mayoría o inclusión), modelamos los desacuerdos entre anotadores para capturar tanto la incertidumbre aleatoria (desacuerdos inherentes entre humanos) como la incertidumbre epistémica (sensibilidad del modelo al dominio). Evaluamos los principales modelos de lenguaje (Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick) en más de 250,000 anotaciones de aproximadamente 700 anotadores, aplicadas a más de 100,000 textos que abarcan redes sociales, noticias y foros.
Nuestro marco bayesiano optimizado para GPU procesó más de 1 millón de consultas a los modelos, revelando que los modelos de IA suelen ubicarse entre el 25% superior de los anotadores humanos, logrando una precisión equilibrada mucho mejor que el promedio. Es importante destacar que encontramos que la IA produce significativamente menos falsos negativos que los humanos, lo que resalta sus capacidades más sensibles para la detección moral.
English
How do large language models understand moral dimensions compared to humans?
This first large-scale Bayesian evaluation of market-leading language models
provides the answer. In contrast to prior work using deterministic ground truth
(majority or inclusion rules), we model annotator disagreements to capture both
aleatoric uncertainty (inherent human disagreement) and epistemic uncertainty
(model domain sensitivity). We evaluate top language models (Claude Sonnet 4,
DeepSeek-V3, Llama 4 Maverick) across 250K+ annotations from ~700 annotators on
100K+ texts spanning social media, news, and forums.
Our GPU-optimized Bayesian framework processed 1M+ model queries, revealing
that AI models typically rank among the top 25\% of human annotators, achieving
much better-than-average balanced accuracy. Importantly, we find that AI
produces far fewer false negatives than humans, highlighting their more
sensitive moral detection capabilities.