인간의 판단을 넘어서: LLM의 도덕적 가치에 대한 베이지안 평가 이해하기
Beyond Human Judgment: A Bayesian Evaluation of LLMs' Moral Values Understanding
August 19, 2025
저자: Maciej Skorski, Alina Landowska
cs.AI
초록
대규모 언어 모델은 인간과 비교하여 도덕적 차원을 어떻게 이해하는가?
이번 연구는 시장을 선도하는 언어 모델에 대한 첫 번째 대규모 베이지안 평가를 통해 그 답을 제공한다. 기존의 결정론적 기준(다수결 또는 포함 규칙)을 사용한 연구와 달리, 우리는 주석자 간의 불일치를 모델링하여 알레토릭 불확실성(고유한 인간의 불일치)과 에피스테믹 불확실성(모델의 도메인 민감도)을 모두 포착한다. 우리는 소셜 미디어, 뉴스, 포럼 등에서 수집된 10만 개 이상의 텍스트에 대해 약 700명의 주석자가 작성한 25만 개 이상의 주석을 바탕으로 주요 언어 모델(Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick)을 평가했다.
GPU 최적화된 베이지안 프레임워크를 통해 100만 개 이상의 모델 쿼리를 처리한 결과, AI 모델은 일반적으로 상위 25%의 인간 주석자에 속하며 평균보다 훨씬 우수한 균형 정확도를 달성하는 것으로 나타났다. 특히, AI는 인간보다 훨씬 적은 수의 거짓 부정(false negative)을 생성하는데, 이는 AI의 더 민감한 도덕적 탐지 능력을 강조한다.
English
How do large language models understand moral dimensions compared to humans?
This first large-scale Bayesian evaluation of market-leading language models
provides the answer. In contrast to prior work using deterministic ground truth
(majority or inclusion rules), we model annotator disagreements to capture both
aleatoric uncertainty (inherent human disagreement) and epistemic uncertainty
(model domain sensitivity). We evaluate top language models (Claude Sonnet 4,
DeepSeek-V3, Llama 4 Maverick) across 250K+ annotations from ~700 annotators on
100K+ texts spanning social media, news, and forums.
Our GPU-optimized Bayesian framework processed 1M+ model queries, revealing
that AI models typically rank among the top 25\% of human annotators, achieving
much better-than-average balanced accuracy. Importantly, we find that AI
produces far fewer false negatives than humans, highlighting their more
sensitive moral detection capabilities.