SHARP: 大規模言語モデルにおける不公平性測定のためのリスクプロファイルに基づく社会的危害分析
SHARP: Social Harm Analysis via Risk Profiles for Measuring Inequities in Large Language Models
January 29, 2026
著者: Alok Abhishek, Tushar Bandopadhyay, Lisa Erickson
cs.AI
要旨
大規模言語モデル(LLM)は、重大な結果が伴う領域で展開が進んでおり、稀ではあるが深刻な失敗が取り返しのつかない被害を引き起こす可能性がある。しかし、従来の評価ベンチマークは、複雑な社会的リスクを平均中心のスカラー値に還元することが多く、分布構造、次元間相互作用、最悪ケースの挙動を見えにくくしている。本論文は、社会的危害の多角的で分布を考慮した評価フレームワークであるSHARP(Social Harm Analysis via Risk Profiles)を提案する。SHARPは危害を多変量確率変数としてモデル化し、バイアス、公平性、倫理、認識的信頼性への明示的な分解を、加算的な累積対数リスクとして再パラメータ化された「失敗の和集合」による集約と統合する。さらに、リスク感応型の分布統計量、特に主要指標としてConditional Value at Risk(CVaR95)を用いて、最悪ケースのモデル挙動を特徴づける。SHARPを11の最先端LLMに適用し、固定されたn=901の社会的にセンシティブなプロンプトで評価した結果、平均リスクが類似しているモデルでも、テールエクスポージャーとボラティリティに2倍以上の差が生じうることが明らかになった。モデル全体を通じて、次元ごとの限界テール挙動は危害の次元によって系統的に異なり、バイアスが最も深刻なテールの重大性を示し、認識的リスクと公平性リスクが中間的な領域を占め、倫理的非整合性は一貫して低かった。これらのパターンは、スカラーベンチマークが混同してしまう、モデル依存の異質な失敗構造を明らかにしている。これらの知見は、LLMの責任ある評価とガバナンスには、スカラー平均を超え、多角的でテールに敏感なリスクプロファイリングに向かうことが必要であることを示唆している。
English
Large language models (LLMs) are increasingly deployed in high-stakes domains, where rare but severe failures can result in irreversible harm. However, prevailing evaluation benchmarks often reduce complex social risk to mean-centered scalar scores, thereby obscuring distributional structure, cross-dimensional interactions, and worst-case behavior. This paper introduces Social Harm Analysis via Risk Profiles (SHARP), a framework for multidimensional, distribution-aware evaluation of social harm. SHARP models harm as a multivariate random variable and integrates explicit decomposition into bias, fairness, ethics, and epistemic reliability with a union-of-failures aggregation reparameterized as additive cumulative log-risk. The framework further employs risk-sensitive distributional statistics, with Conditional Value at Risk (CVaR95) as a primary metric, to characterize worst-case model behavior. Application of SHARP to eleven frontier LLMs, evaluated on a fixed corpus of n=901 socially sensitive prompts, reveals that models with similar average risk can exhibit more than twofold differences in tail exposure and volatility. Across models, dimension-wise marginal tail behavior varies systematically across harm dimensions, with bias exhibiting the strongest tail severities, epistemic and fairness risks occupying intermediate regimes, and ethical misalignment consistently lower; together, these patterns reveal heterogeneous, model-dependent failure structures that scalar benchmarks conflate. These findings indicate that responsible evaluation and governance of LLMs require moving beyond scalar averages toward multidimensional, tail-sensitive risk profiling.