SHARP: Analisi del Danno Sociale tramite Profili di Rischio per Misurare le Disuguaglianze nei Modelli Linguistici di Grande Dimensione

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono sempre più impiegati in domini ad alto rischio, dove guasti rari ma gravi possono causare danni irreversibili. Tuttavia, i benchmark di valutazione prevalenti spesso riducono il rischio sociale complesso a punteggi scalari centrati sulla media, oscurando così la struttura distributiva, le interazioni cross-dimensionali e il comportamento nel caso peggiore. Questo articolo introduce l'Analisi del Danno Sociale tramite Profili di Rischio (SHARP), un quadro per la valutazione multidimensionale e consapevole della distribuzione del danno sociale. SHARP modella il danno come una variabile casuale multivariata e integra una scomposizione esplicita in bias, equità, etica e affidabilità epistemica con un'aggregazione a unione di guasti riformulata come rischio cumulativo logaritmico additivo. Il quadro utilizza inoltre statistiche distributive sensibili al rischio, con il Valore a Rischio Condizionato (CVaR95) come metrica primaria, per caratterizzare il comportamento del modello nel caso peggiore. L'applicazione di SHARP a undici LLM di frontiera, valutati su un corpus fisso di n=901 prompt socialmente sensibili, rivela che modelli con rischio medio simile possono mostrare differenze superiori al doppio nell'esposizione e nella volatilità di coda. Attraverso i modelli, il comportamento marginale di coda varia sistematicamente tra le dimensioni del danno, con il bias che mostra le severità di coda più forti, i rischi epistemici e di equità che occupano regimi intermedi e il disallineamento etico costantemente più basso; insieme, questi modelli rivelano strutture di guasto eterogenee e dipendenti dal modello che i benchmark scalari conglobano. Questi risultati indicano che una valutazione e una governance responsabile degli LLM richiedono di andare oltre le medie scalari verso una profilazione del rischio multidimensionale e sensibile alle code.

English

Large language models (LLMs) are increasingly deployed in high-stakes domains, where rare but severe failures can result in irreversible harm. However, prevailing evaluation benchmarks often reduce complex social risk to mean-centered scalar scores, thereby obscuring distributional structure, cross-dimensional interactions, and worst-case behavior. This paper introduces Social Harm Analysis via Risk Profiles (SHARP), a framework for multidimensional, distribution-aware evaluation of social harm. SHARP models harm as a multivariate random variable and integrates explicit decomposition into bias, fairness, ethics, and epistemic reliability with a union-of-failures aggregation reparameterized as additive cumulative log-risk. The framework further employs risk-sensitive distributional statistics, with Conditional Value at Risk (CVaR95) as a primary metric, to characterize worst-case model behavior. Application of SHARP to eleven frontier LLMs, evaluated on a fixed corpus of n=901 socially sensitive prompts, reveals that models with similar average risk can exhibit more than twofold differences in tail exposure and volatility. Across models, dimension-wise marginal tail behavior varies systematically across harm dimensions, with bias exhibiting the strongest tail severities, epistemic and fairness risks occupying intermediate regimes, and ethical misalignment consistently lower; together, these patterns reveal heterogeneous, model-dependent failure structures that scalar benchmarks conflate. These findings indicate that responsible evaluation and governance of LLMs require moving beyond scalar averages toward multidimensional, tail-sensitive risk profiling.

SHARP: Analisi del Danno Sociale tramite Profili di Rischio per Misurare le Disuguaglianze nei Modelli Linguistici di Grande Dimensione

SHARP: Social Harm Analysis via Risk Profiles for Measuring Inequities in Large Language Models

Abstract

Support