SHARP : Analyse des Préjudices Sociaux via les Profils de Risque pour Mesurer les Inégalités dans les Grands Modèles de Langage
SHARP: Social Harm Analysis via Risk Profiles for Measuring Inequities in Large Language Models
January 29, 2026
papers.authors: Alok Abhishek, Tushar Bandopadhyay, Lisa Erickson
cs.AI
papers.abstract
Les grands modèles de langage (LLM) sont de plus en plus déployés dans des domaines à haut risque, où des défaillances rares mais graves peuvent entraîner des préjudices irréversibles. Cependant, les benchmarks d'évaluation dominants réduisent souvent le risque social complexe à des scores scalaires centrés sur la moyenne, occultant ainsi la structure distributionnelle, les interactions transdimensionnelles et le comportement dans les pires cas. Cet article présente l'Analyse des Préjudices Sociaux par Profils de Risque (SHARP), un cadre d'évaluation multidimensionnelle et sensible à la distribution des préjudices sociaux. SHARP modélise le préjudice comme une variable aléatoire multivariée et intègre une décomposition explicite en biais, équité, éthique et fiabilité épistémique avec une agrégation par union de défaillances reparamétrée comme un log-risque cumulatif additif. Le cadre utilise en outre des statistiques distributionnelles sensibles au risque, avec la Valeur Conditionnelle au Risque (CVaR95) comme métrique principale, pour caractériser le comportement du modèle dans les pires cas. L'application de SHARP à onze LLM de pointe, évalués sur un corpus fixe de n=901 requêtes socialement sensibles, révèle que des modèles présentant un risque moyen similaire peuvent afficher des différences de plus du double dans l'exposition et la volatilité des queues de distribution. Pour l'ensemble des modèles, le comportement marginal des queues varie systématiquement selon les dimensions de préjudice : le biais présente les sévérités de queue les plus fortes, les risques épistémiques et d'équité occupant des régimes intermédiaires, et le défaut d'alignement éthique étant systématiquement plus faible ; ensemble, ces profils révèlent des structures de défaillance hétérogènes et dépendantes du modèle que les benchmarks scalaires amalgament. Ces résultats indiquent qu'une évaluation et une gouvernance responsables des LLM nécessitent de dépasser les moyennes scalaires pour s'orienter vers un profilage multidimensionnel du risque sensible aux queues de distribution.
English
Large language models (LLMs) are increasingly deployed in high-stakes domains, where rare but severe failures can result in irreversible harm. However, prevailing evaluation benchmarks often reduce complex social risk to mean-centered scalar scores, thereby obscuring distributional structure, cross-dimensional interactions, and worst-case behavior. This paper introduces Social Harm Analysis via Risk Profiles (SHARP), a framework for multidimensional, distribution-aware evaluation of social harm. SHARP models harm as a multivariate random variable and integrates explicit decomposition into bias, fairness, ethics, and epistemic reliability with a union-of-failures aggregation reparameterized as additive cumulative log-risk. The framework further employs risk-sensitive distributional statistics, with Conditional Value at Risk (CVaR95) as a primary metric, to characterize worst-case model behavior. Application of SHARP to eleven frontier LLMs, evaluated on a fixed corpus of n=901 socially sensitive prompts, reveals that models with similar average risk can exhibit more than twofold differences in tail exposure and volatility. Across models, dimension-wise marginal tail behavior varies systematically across harm dimensions, with bias exhibiting the strongest tail severities, epistemic and fairness risks occupying intermediate regimes, and ethical misalignment consistently lower; together, these patterns reveal heterogeneous, model-dependent failure structures that scalar benchmarks conflate. These findings indicate that responsible evaluation and governance of LLMs require moving beyond scalar averages toward multidimensional, tail-sensitive risk profiling.