Selektive Kontrolle unter verrauschter Wahrnehmung: Governance-Versagen verborgen durch aggregierte Metriken in modularen Netzwerken

Zusammenfassung

Ein Inhaltsmoderationssystem kann bei allen gängigen Genauigkeitsmetriken gut abschneiden und dennoch echten Schaden anrichten, wenn seine Fehler die wenigen Nutzer treffen, die ansonsten getrennte Gemeinschaften verbinden. Wir zeigen dies in einem agentenbasierten Modell, in dem N=240 lernende Agenten in einem gemeinschaftsstrukturierten Netzwerk jeweils harmlose, produktive oder gefährliche Inhalte posten, und ein Regulator alles entfernt oder bestraft, was ein verrauschter Klassifikator kennzeichnet. Der Gesamtnutzen ändert sich kaum mit dem Rauschen (einfaktorielle ANOVA, p=0,96): Nach aggregierten Maßen wirkt nichts falsch. Der Schaden konzentriert sich stattdessen auf diese Brückennutzer, deren nützliche Beiträge zu Unrecht unterdrückt und deren gefährliche Beiträge zu Unrecht verschont werden. Ein Governance-Verlust (L_gov), der diese beiden Fehler getrennt von den Durchsetzungskosten bepreist, steigt unter falsch-positiv-lastigem Rauschen auf mehr als das Doppelte. Die aggregierte Genauigkeit verdeckt, wer geschädigt wird, und das günstig zu prüfende Maß ist, wie viele Verbindungen ein Nutzer hat (Grad), ein nahezu perfekter Proxy für die Betweenness, die einen Brückennutzer definiert (r=0,96).

English

A content-moderation system can score well on every standard accuracy metric and still cause real harm, if its mistakes fall on the few users who connect otherwise separate communities. We show this in an agent-based model where N=240 learning agents on a community-structured network each post harmless, productive, or dangerous content, and a regulator removes or penalizes whatever a noisy classifier flags. Overall usefulness barely moves as the noise changes (one-way ANOVA, p=0.96): by aggregate measures, nothing looks wrong. The damage instead concentrates on these bridge users, whose useful posts are wrongly suppressed and whose dangerous posts are wrongly spared. A governance loss (L_gov) that prices these two mistakes separately from the cost of enforcement more than doubles under false-positive-heavy noise. Aggregate accuracy hides who is harmed, and the cheap quantity to audit is how many connections a user has (degree), a near-perfect proxy for the betweenness that defines a bridge (r=0.96).