SHARP: Analyse sozialer Schäden durch Risikoprofile zur Messung von Ungleichheiten in großen Sprachmodellen
SHARP: Social Harm Analysis via Risk Profiles for Measuring Inequities in Large Language Models
January 29, 2026
papers.authors: Alok Abhishek, Tushar Bandopadhyay, Lisa Erickson
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) werden zunehmend in hochriskanten Domänen eingesetzt, in denen seltene, aber schwerwiegende Fehler irreversible Schäden verursachen können. Gängige Evaluierungs-Benchmarks reduzieren komplexes soziales Risiko jedoch oft auf mittelwertzentrierte Skalarwerte, wodurch Verteilungsstrukturen, interdimensionalale Wechselwirkungen und Worst-Case-Verhalten verschleiert werden. Dieses Papier stellt Social Harm Analysis via Risk Profiles (SHARP) vor, einen Rahmen für mehrdimensionale, verteilungsbewusste Evaluierung sozialer Schäden. SHARP modelliert Schaden als multivariate Zufallsvariable und integriert eine explizite Zerlegung in Bias, Fairness, Ethik und epistemische Zuverlässigkeit mit einer Union-of-Failures-Aggregation, die als additive kumulative Log-Risiken umparametrisiert wird. Der Rahmen verwendet zudem risikosensitive Verteilungsstatistiken, mit Conditional Value at Risk (CVaR95) als primärer Metrik, um das Worst-Case-Modellverhalten zu charakterisieren. Die Anwendung von SHARP auf elf frontier-LLMs, evaluiert an einem festen Korpus von n=901 sozial sensiblen Prompts, zeigt, dass Modelle mit ähnlichem durchschnittlichem Risiko mehr als doppelt so große Unterschiede im Tail-Risiko und in der Volatilität aufweisen können. Über alle Modelle hinweg variiert das dimensionenweise marginale Tail-Verhalten systematisch über die Schadensdimensionen: Bias zeigt die stärksten Tail-Ausprägungen, epistemische und Fairness-Risiken nehmen eine mittlere Position ein, und ethische Fehlausrichtung ist durchgängig geringer; zusammen offenbaren diese Muster heterogene, modellabhängige Fehlerstrukturen, die von skalaren Benchmarks vermischt werden. Diese Ergebnisse deuten darauf hin, dass eine verantwortungsvolle Evaluierung und Steuerung von LLMs über skalare Durchschnitte hinaus hin zu mehrdimensionalen, tail-sensitiven Risikoprofilen erfordern.
English
Large language models (LLMs) are increasingly deployed in high-stakes domains, where rare but severe failures can result in irreversible harm. However, prevailing evaluation benchmarks often reduce complex social risk to mean-centered scalar scores, thereby obscuring distributional structure, cross-dimensional interactions, and worst-case behavior. This paper introduces Social Harm Analysis via Risk Profiles (SHARP), a framework for multidimensional, distribution-aware evaluation of social harm. SHARP models harm as a multivariate random variable and integrates explicit decomposition into bias, fairness, ethics, and epistemic reliability with a union-of-failures aggregation reparameterized as additive cumulative log-risk. The framework further employs risk-sensitive distributional statistics, with Conditional Value at Risk (CVaR95) as a primary metric, to characterize worst-case model behavior. Application of SHARP to eleven frontier LLMs, evaluated on a fixed corpus of n=901 socially sensitive prompts, reveals that models with similar average risk can exhibit more than twofold differences in tail exposure and volatility. Across models, dimension-wise marginal tail behavior varies systematically across harm dimensions, with bias exhibiting the strongest tail severities, epistemic and fairness risks occupying intermediate regimes, and ethical misalignment consistently lower; together, these patterns reveal heterogeneous, model-dependent failure structures that scalar benchmarks conflate. These findings indicate that responsible evaluation and governance of LLMs require moving beyond scalar averages toward multidimensional, tail-sensitive risk profiling.