ChatPaper.aiChatPaper

Além do Julgamento Humano: Uma Avaliação Bayesiana dos Valores Morais dos LLMs Compreendendo

Beyond Human Judgment: A Bayesian Evaluation of LLMs' Moral Values Understanding

August 19, 2025
Autores: Maciej Skorski, Alina Landowska
cs.AI

Resumo

Como os grandes modelos de linguagem compreendem as dimensões morais em comparação com os humanos? Esta primeira avaliação bayesiana em larga escala dos principais modelos de linguagem do mercado fornece a resposta. Em contraste com trabalhos anteriores que utilizavam verdades fundamentais determinísticas (regras de maioria ou inclusão), nós modelamos as discordâncias dos anotadores para capturar tanto a incerteza aleatória (discordância humana inerente) quanto a incerteza epistêmica (sensibilidade do modelo ao domínio). Avaliamos os principais modelos de linguagem (Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick) em mais de 250 mil anotações de aproximadamente 700 anotadores, abrangendo mais de 100 mil textos de mídias sociais, notícias e fóruns. Nosso framework bayesiano otimizado para GPU processou mais de 1 milhão de consultas de modelos, revelando que os modelos de IA geralmente se classificam entre os 25% melhores dos anotadores humanos, alcançando uma precisão balanceada muito superior à média. Importante destacar, descobrimos que a IA produz muito menos falsos negativos do que os humanos, evidenciando suas capacidades de detecção moral mais sensíveis.
English
How do large language models understand moral dimensions compared to humans? This first large-scale Bayesian evaluation of market-leading language models provides the answer. In contrast to prior work using deterministic ground truth (majority or inclusion rules), we model annotator disagreements to capture both aleatoric uncertainty (inherent human disagreement) and epistemic uncertainty (model domain sensitivity). We evaluate top language models (Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick) across 250K+ annotations from ~700 annotators on 100K+ texts spanning social media, news, and forums. Our GPU-optimized Bayesian framework processed 1M+ model queries, revealing that AI models typically rank among the top 25\% of human annotators, achieving much better-than-average balanced accuracy. Importantly, we find that AI produces far fewer false negatives than humans, highlighting their more sensitive moral detection capabilities.
PDF34August 20, 2025