ChatPaper.aiChatPaper

SHARP: Análisis de Daño Social mediante Perfiles de Riesgo para Medir Inequidades en Modelos de Lenguaje a Gran Escala

SHARP: Social Harm Analysis via Risk Profiles for Measuring Inequities in Large Language Models

January 29, 2026
Autores: Alok Abhishek, Tushar Bandopadhyay, Lisa Erickson
cs.AI

Resumen

Los modelos de lenguaje a gran escala (LLMs) se despliegan cada vez más en dominios de alto riesgo, donde fallos raros pero graves pueden resultar en daños irreversibles. Sin embargo, los puntos de referencia de evaluación predominantes a menudo reducen el riesgo social complejo a puntuaciones escalares centradas en la media, oscureciendo así la estructura distribucional, las interacciones cruzadas entre dimensiones y el comportamiento en el peor de los casos. Este artículo presenta el Análisis de Daño Social mediante Perfiles de Riesgo (SHARP), un marco para la evaluación multidimensional y consciente de la distribución del daño social. SHARP modela el daño como una variable aleatoria multivariante e integra una descomposición explícita en sesgo, equidad, ética y confiabilidad epistémica con una agregación de unión de fallos reparametrizada como riesgo logarítmico acumulativo aditivo. El marco emplea además estadísticas distribucionales sensibles al riesgo, con el Valor en Riesgo Condicional (CVaR95) como métrica principal, para caracterizar el comportamiento del modelo en el peor caso. La aplicación de SHARP a once LLMs de vanguardia, evaluados en un corpus fijo de n=901 indicaciones socialmente sensibles, revela que modelos con un riesgo promedio similar pueden exhibir diferencias de más del doble en la exposición y volatilidad de las colas. En todos los modelos, el comportamiento marginal de la cola varía sistemáticamente entre las dimensiones de daño, mostrando el sesgo las severidades de cola más fuertes, los riesgos epistémicos y de equidad ocupando regímenes intermedios, y la desalineación ética consistentemente más baja; en conjunto, estos patrones revelan estructuras de fallo heterogéneas y dependientes del modelo que los puntos de referencia escalares fusionan. Estos hallazgos indican que la evaluación y gobernanza responsable de los LLMs requieren ir más allá de los promedios escalares hacia una caracterización del riesgo multidimensional y sensible a las colas de la distribución.
English
Large language models (LLMs) are increasingly deployed in high-stakes domains, where rare but severe failures can result in irreversible harm. However, prevailing evaluation benchmarks often reduce complex social risk to mean-centered scalar scores, thereby obscuring distributional structure, cross-dimensional interactions, and worst-case behavior. This paper introduces Social Harm Analysis via Risk Profiles (SHARP), a framework for multidimensional, distribution-aware evaluation of social harm. SHARP models harm as a multivariate random variable and integrates explicit decomposition into bias, fairness, ethics, and epistemic reliability with a union-of-failures aggregation reparameterized as additive cumulative log-risk. The framework further employs risk-sensitive distributional statistics, with Conditional Value at Risk (CVaR95) as a primary metric, to characterize worst-case model behavior. Application of SHARP to eleven frontier LLMs, evaluated on a fixed corpus of n=901 socially sensitive prompts, reveals that models with similar average risk can exhibit more than twofold differences in tail exposure and volatility. Across models, dimension-wise marginal tail behavior varies systematically across harm dimensions, with bias exhibiting the strongest tail severities, epistemic and fairness risks occupying intermediate regimes, and ethical misalignment consistently lower; together, these patterns reveal heterogeneous, model-dependent failure structures that scalar benchmarks conflate. These findings indicate that responsible evaluation and governance of LLMs require moving beyond scalar averages toward multidimensional, tail-sensitive risk profiling.
PDF11February 12, 2026