ChatPaper.aiChatPaper

SHARP: 대규모 언어 모델의 불평등 측정을 위한 위험 프로필 기반 사회적 해석 분석

SHARP: Social Harm Analysis via Risk Profiles for Measuring Inequities in Large Language Models

January 29, 2026
저자: Alok Abhishek, Tushar Bandopadhyay, Lisa Erickson
cs.AI

초록

대규모 언어 모델(LLM)이 돌이킬 수 없는 피해를 초래할 수 있는 희귀하지만 심각한 오류가 발생하는 중대한 영역에 점점 더 많이 배포되고 있습니다. 그러나 기존의 평가 벤치마크는 복잡한 사회적 위험을 평균 중심의 스칼라 점수로 축소하는 경우가 많아, 분포 구조, 차원 간 상호작용, 최악의 경우 행동을 불분명하게 만듭니다. 본 논문은 사회적 위해에 대한 다차원적, 분포 인식 평가 프레임워크인 SHARP(Social Harm Analysis via Risk Profiles)를 소개합니다. SHARP는 위해를 다변량 확률 변수로 모델링하고, 편향, 공정성, 윤리, 인식적 신뢰도로의 명시적 분해를 가법적 누적 로그 위험으로 재매개변수화된 연합-실패 집계와 통합합니다. 본 프레임워크는 위험 민감 분포 통계를 추가로 활용하며, 주요 지표로서 Conditional Value at Risk(CVaR95)를 사용하여 최악의 경우 모델 행동을 특징짓습니다. n=901개의 사회적으로 민감한 고정된 프롬프트 코퍼스로 평가된 11개의 최첨단 LLM에 SHARP를 적용한 결과, 평균 위험은 유사하지만 꼬리 위험 노출과 변동성에서 두 배 이상의 차이를 보일 수 있음이 확인되었습니다. 다양한 모델 전반에 걸쳐, 위해 차원별 한계 꼬리 행동은 체계적으로 변동하며, 편향이 가장 강한 꼬리 심각도를 보이고, 인식적 및 공정성 위험은 중간 영역을 차지하며, 윤리적 부조화는 지속적으로 낮았습니다. 이러한 패턴은 종합적으로 스칼라 벤치마크가 혼동하는 이질적이고 모델에 종속적인 실패 구조를 드러냅니다. 이러한 결과는 LLM의 책임 있는 평가와 거버넌스에 스칼라 평균을 넘어 다차원적이고 꼬리 위험에 민감한 위험 프로파일링으로의 전환이 필요함을 시사합니다.
English
Large language models (LLMs) are increasingly deployed in high-stakes domains, where rare but severe failures can result in irreversible harm. However, prevailing evaluation benchmarks often reduce complex social risk to mean-centered scalar scores, thereby obscuring distributional structure, cross-dimensional interactions, and worst-case behavior. This paper introduces Social Harm Analysis via Risk Profiles (SHARP), a framework for multidimensional, distribution-aware evaluation of social harm. SHARP models harm as a multivariate random variable and integrates explicit decomposition into bias, fairness, ethics, and epistemic reliability with a union-of-failures aggregation reparameterized as additive cumulative log-risk. The framework further employs risk-sensitive distributional statistics, with Conditional Value at Risk (CVaR95) as a primary metric, to characterize worst-case model behavior. Application of SHARP to eleven frontier LLMs, evaluated on a fixed corpus of n=901 socially sensitive prompts, reveals that models with similar average risk can exhibit more than twofold differences in tail exposure and volatility. Across models, dimension-wise marginal tail behavior varies systematically across harm dimensions, with bias exhibiting the strongest tail severities, epistemic and fairness risks occupying intermediate regimes, and ethical misalignment consistently lower; together, these patterns reveal heterogeneous, model-dependent failure structures that scalar benchmarks conflate. These findings indicate that responsible evaluation and governance of LLMs require moving beyond scalar averages toward multidimensional, tail-sensitive risk profiling.
PDF11February 12, 2026