SHARP: Análise de Danos Sociais por meio de Perfis de Risco para Mensurar Iniquidades em Modelos de Linguagem de Grande Escala

Resumo

Os grandes modelos de linguagem (LLMs) estão sendo cada vez mais implantados em domínios de alto risco, onde falhas raras, porém graves, podem resultar em danos irreversíveis. No entanto, os *benchmarks* de avaliação predominantes frequentemente reduzem o risco social complexo a pontuações escalares centradas na média, obscurecendo assim a estrutura distributiva, as interações cruzadas entre dimensões e o comportamento no pior cenário. Este artigo apresenta a Análise de Dano Social via Perfis de Risco (SHARP), uma estrutura para avaliação multidimensional e consciente da distribuição de danos sociais. O SHARP modela o dano como uma variável aleatória multivariada e integra uma decomposição explícita em viés, justiça, ética e confiabilidade epistêmica com uma agregação de união de falhas reparametrizada como risco cumulativo logarítmico aditivo. A estrutura emprega ainda estatísticas distribucionais sensíveis ao risco, com o Valor Condicional em Risco (CVaR95) como métrica primária, para caracterizar o comportamento do modelo no pior caso. A aplicação do SHARP a onze LLMs de fronteira, avaliados em um *corpus* fixo de n=901 *prompts* socialmente sensíveis, revela que modelos com risco médio similar podem exibir diferenças superiores ao dobro na exposição e volatilidade da cauda da distribuição. Entre os modelos, o comportamento marginal da cauda varia sistematicamente entre as dimensões de dano, com o viés exibindo as severidades de cauda mais fortes, os riscos epistêmicos e de justiça ocupando regimes intermediários, e o desalinhamento ético consistentemente menor; em conjunto, esses padrões revelam estruturas de falha heterogêneas e dependentes do modelo que os *benchmarks* escalares agregam indevidamente. Essas descobertas indicam que a avaliação e a governança responsáveis dos LLMs exigem ir além das médias escalares em direção a um mapeamento de risco multidimensional e sensível à cauda da distribuição.

English

Large language models (LLMs) are increasingly deployed in high-stakes domains, where rare but severe failures can result in irreversible harm. However, prevailing evaluation benchmarks often reduce complex social risk to mean-centered scalar scores, thereby obscuring distributional structure, cross-dimensional interactions, and worst-case behavior. This paper introduces Social Harm Analysis via Risk Profiles (SHARP), a framework for multidimensional, distribution-aware evaluation of social harm. SHARP models harm as a multivariate random variable and integrates explicit decomposition into bias, fairness, ethics, and epistemic reliability with a union-of-failures aggregation reparameterized as additive cumulative log-risk. The framework further employs risk-sensitive distributional statistics, with Conditional Value at Risk (CVaR95) as a primary metric, to characterize worst-case model behavior. Application of SHARP to eleven frontier LLMs, evaluated on a fixed corpus of n=901 socially sensitive prompts, reveals that models with similar average risk can exhibit more than twofold differences in tail exposure and volatility. Across models, dimension-wise marginal tail behavior varies systematically across harm dimensions, with bias exhibiting the strongest tail severities, epistemic and fairness risks occupying intermediate regimes, and ethical misalignment consistently lower; together, these patterns reveal heterogeneous, model-dependent failure structures that scalar benchmarks conflate. These findings indicate that responsible evaluation and governance of LLMs require moving beyond scalar averages toward multidimensional, tail-sensitive risk profiling.

SHARP: Análise de Danos Sociais por meio de Perfis de Risco para Mensurar Iniquidades em Modelos de Linguagem de Grande Escala

SHARP: Social Harm Analysis via Risk Profiles for Measuring Inequities in Large Language Models

Resumo

Support