ChatPaper.aiChatPaper

За пределами человеческого суждения: байесовская оценка моральных ценностей языковых моделей Понимание

Beyond Human Judgment: A Bayesian Evaluation of LLMs' Moral Values Understanding

August 19, 2025
Авторы: Maciej Skorski, Alina Landowska
cs.AI

Аннотация

Как крупные языковые модели понимают моральные аспекты по сравнению с людьми? Это первое крупномасштабное байесовское исследование ведущих языковых моделей на рынке дает ответ. В отличие от предыдущих работ, использующих детерминированную истину (правила большинства или включения), мы моделируем разногласия аннотаторов, чтобы учесть как алеаторную неопределенность (внутренние разногласия людей), так и эпистемическую неопределенность (чувствительность модели к предметной области). Мы оцениваем лучшие языковые модели (Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick) на основе более 250 тысяч аннотаций от примерно 700 аннотаторов для более чем 100 тысяч текстов, охватывающих социальные сети, новости и форумы. Наша оптимизированная для GPU байесовская система обработала более 1 миллиона запросов к моделям, показав, что модели ИИ обычно входят в топ-25% среди аннотаторов-людей, демонстрируя значительно выше среднего сбалансированную точность. Важно отметить, что ИИ генерирует гораздо меньше ложных отрицательных результатов, чем люди, что подчеркивает их более чувствительные способности к обнаружению моральных аспектов.
English
How do large language models understand moral dimensions compared to humans? This first large-scale Bayesian evaluation of market-leading language models provides the answer. In contrast to prior work using deterministic ground truth (majority or inclusion rules), we model annotator disagreements to capture both aleatoric uncertainty (inherent human disagreement) and epistemic uncertainty (model domain sensitivity). We evaluate top language models (Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick) across 250K+ annotations from ~700 annotators on 100K+ texts spanning social media, news, and forums. Our GPU-optimized Bayesian framework processed 1M+ model queries, revealing that AI models typically rank among the top 25\% of human annotators, achieving much better-than-average balanced accuracy. Importantly, we find that AI produces far fewer false negatives than humans, highlighting their more sensitive moral detection capabilities.
PDF11August 20, 2025