ChatPaper.aiChatPaper

SHARP: Анализ социального вреда через профили риска для измерения неравенства в больших языковых моделях

SHARP: Social Harm Analysis via Risk Profiles for Measuring Inequities in Large Language Models

January 29, 2026
Авторы: Alok Abhishek, Tushar Bandopadhyay, Lisa Erickson
cs.AI

Аннотация

Крупные языковые модели (LLM) все чаще применяются в областях с высокими ставками, где редкие, но серьезные сбои могут привести к необратимым последствиям. Однако преобладающие оценочные бенчмарки часто сводят сложные социальные риски к усредненным скалярным показателям, тем самым скрывая распределительную структуру, междомерные взаимодействия и наихудшие сценарии поведения. В данной статье представлен SHARP (Social Harm Analysis via Risk Profiles) — фреймворк для многомерной, учитывающей распределение оценки социального вреда. SHARP моделирует вред как многомерную случайную величину и интегрирует явную декомпозицию на смещения, справедливость, этику и эпистемическую надежность с агрегацией по принципу «объединения отказов», перепараметризованной в виде аддитивного кумулятивного лог-риска. Фреймворк дополнительно использует чувствительные к риску распределительные статистики, с Conditional Value at Risk (CVaR95) в качестве основного показателя, для характеристики наихудшего поведения модели. Применение SHARP к одиннадцати передовым LLM, оцененным на фиксированном корпусе из n=901 социально чувствительных промптов, показывает, что модели со схожим средним риском могут демонстрировать более чем двукратные различия в хвостовом риске и волатильности. Для всех моделей маргинальное хвостовое поведение систематически варьируется по измерениям вреда: смещения демонстрируют наибольшую тяжесть хвостов, эпистемические риски и риски справедливости занимают промежуточное положение, а этические риски последовательно ниже; вместе эти паттерны выявляют гетерогенные, зависящие от модели структуры сбоев, которые скалярные бенчмарки объединяют. Эти результаты указывают на то, что ответственная оценка и управление LLM требуют перехода от скалярных средних значений к многомерному, чувствительному к хвостам распределения профилированию рисков.
English
Large language models (LLMs) are increasingly deployed in high-stakes domains, where rare but severe failures can result in irreversible harm. However, prevailing evaluation benchmarks often reduce complex social risk to mean-centered scalar scores, thereby obscuring distributional structure, cross-dimensional interactions, and worst-case behavior. This paper introduces Social Harm Analysis via Risk Profiles (SHARP), a framework for multidimensional, distribution-aware evaluation of social harm. SHARP models harm as a multivariate random variable and integrates explicit decomposition into bias, fairness, ethics, and epistemic reliability with a union-of-failures aggregation reparameterized as additive cumulative log-risk. The framework further employs risk-sensitive distributional statistics, with Conditional Value at Risk (CVaR95) as a primary metric, to characterize worst-case model behavior. Application of SHARP to eleven frontier LLMs, evaluated on a fixed corpus of n=901 socially sensitive prompts, reveals that models with similar average risk can exhibit more than twofold differences in tail exposure and volatility. Across models, dimension-wise marginal tail behavior varies systematically across harm dimensions, with bias exhibiting the strongest tail severities, epistemic and fairness risks occupying intermediate regimes, and ethical misalignment consistently lower; together, these patterns reveal heterogeneous, model-dependent failure structures that scalar benchmarks conflate. These findings indicate that responsible evaluation and governance of LLMs require moving beyond scalar averages toward multidimensional, tail-sensitive risk profiling.
PDF11February 12, 2026