SHARP: Analyse van Maatschappelijke Schade via Risicoprofielen voor het Meten van Ongelijkheid in Grote Taalmodellen

Samenvatting

Grootschalige taalmodelen (LLM's) worden steeds vaker ingezet in hoog-risicodomeinen, waar zeldzame maar ernstige fouten onomkeerbare schade kunnen veroorzaken. Huidige evaluatiebenchmarks reduceren complex sociaal risico echter vaak tot gemiddelde-centerede scalaire scores, waardoor de distributionele structuur, kruisdimensionale interacties en worst-case gedrag worden verhuld. Dit artikel introduceert Social Harm Analysis via Risk Profiles (SHARP), een raamwerk voor multidimensionale, distributiebewuste evaluatie van sociale schade. SHARP modelleert schade als een multivariate stochastische variabele en integreert een expliciete decompositie in bias, eerlijkheid, ethiek en epistemische betrouwbaarheid met een union-of-failures-aggregatie die is geherparameteriseerd als additief cumulatief log-risico. Het raamwerk hanteert verder risicogevoelige distributionele statistieken, met Conditional Value at Risk (CVaR95) als primaire metriek, om het worst-case gedrag van modellen te karakteriseren. Toepassing van SHARP op elf frontier-LLM's, geëvalueerd op een vaste corpus van n=901 sociaal gevoelige prompts, laat zien dat modellen met een vergelijkbaar gemiddeld risico meer dan een tweevoudig verschil kunnen vertonen in tail exposure en volatiliteit. Over de modellen heen varieert de dimensionale marginale tail-systematiek per schadedimensie: bias vertoont de sterkste tail-severity, epistemische en eerlijkheidsrisico's bevinden zich in een intermediair regime, en ethische misalignement is consistent lager; samen onthullen deze patronen heterogene, modelafhankelijke faalstructuren die door scalaire benchmarks worden samengevoegd. Deze bevindingen geven aan dat verantwoorde evaluatie en governance van LLM's een verschuiving vereisen van scalaire gemiddelden naar multidimensionale, tail-gevoelige risicoprofielen.

English

Large language models (LLMs) are increasingly deployed in high-stakes domains, where rare but severe failures can result in irreversible harm. However, prevailing evaluation benchmarks often reduce complex social risk to mean-centered scalar scores, thereby obscuring distributional structure, cross-dimensional interactions, and worst-case behavior. This paper introduces Social Harm Analysis via Risk Profiles (SHARP), a framework for multidimensional, distribution-aware evaluation of social harm. SHARP models harm as a multivariate random variable and integrates explicit decomposition into bias, fairness, ethics, and epistemic reliability with a union-of-failures aggregation reparameterized as additive cumulative log-risk. The framework further employs risk-sensitive distributional statistics, with Conditional Value at Risk (CVaR95) as a primary metric, to characterize worst-case model behavior. Application of SHARP to eleven frontier LLMs, evaluated on a fixed corpus of n=901 socially sensitive prompts, reveals that models with similar average risk can exhibit more than twofold differences in tail exposure and volatility. Across models, dimension-wise marginal tail behavior varies systematically across harm dimensions, with bias exhibiting the strongest tail severities, epistemic and fairness risks occupying intermediate regimes, and ethical misalignment consistently lower; together, these patterns reveal heterogeneous, model-dependent failure structures that scalar benchmarks conflate. These findings indicate that responsible evaluation and governance of LLMs require moving beyond scalar averages toward multidimensional, tail-sensitive risk profiling.

SHARP: Analyse van Maatschappelijke Schade via Risicoprofielen voor het Meten van Ongelijkheid in Grote Taalmodellen

SHARP: Social Harm Analysis via Risk Profiles for Measuring Inequities in Large Language Models

Samenvatting

Support