Избирательный контроль при зашумленном восприятии: провалы управления, скрытые агрегированными метриками в модульных сетях

Аннотация

Система модерации контента может получать высокие баллы по всем стандартным метрикам точности и при этом причинять реальный вред, если её ошибки приходятся на малочисленных пользователей, которые соединяют иначе разобщённые сообщества. Мы демонстрируем это на агентной модели, где N=240 обучающихся агентов в сети с коммунальной структурой публикуют безвредный, продуктивный или опасный контент, а регулятор удаляет или наказывает то, что помечает зашумлённый классификатор. Общая полезность почти не меняется при изменении шума (однофакторный дисперсионный анализ, p=0,96): по совокупным показателям ничего не выглядит неправильным. Вред же сосредоточен на этих пользователях-мостах, чьи полезные сообщения ошибочно подавляются, а опасные — ошибочно остаются безнаказанными. Управленческие потери (L_gov), которые оценивают эти две ошибки отдельно от стоимости принуждения, более чем удваиваются при шуме с преобладанием ложных срабатываний. Агрегированная точность скрывает, кто пострадал, а дешёвой величиной для аудита является количество связей пользователя (степень) — почти идеальный прокси для посредничества, определяющего мост (r=0,96).

English

A content-moderation system can score well on every standard accuracy metric and still cause real harm, if its mistakes fall on the few users who connect otherwise separate communities. We show this in an agent-based model where N=240 learning agents on a community-structured network each post harmless, productive, or dangerous content, and a regulator removes or penalizes whatever a noisy classifier flags. Overall usefulness barely moves as the noise changes (one-way ANOVA, p=0.96): by aggregate measures, nothing looks wrong. The damage instead concentrates on these bridge users, whose useful posts are wrongly suppressed and whose dangerous posts are wrongly spared. A governance loss (L_gov) that prices these two mistakes separately from the cost of enforcement more than doubles under false-positive-heavy noise. Aggregate accuracy hides who is harmed, and the cheap quantity to audit is how many connections a user has (degree), a near-perfect proxy for the betweenness that defines a bridge (r=0.96).