Contrôle sélectif sous perception bruitée : défaillances de gouvernance cachées par les métriques agrégées dans les réseaux modulaires

Résumé

Un système de modération de contenu peut obtenir de bons résultats sur tous les indicateurs de précision standard tout en causant des dommages réels, si ses erreurs portent sur les quelques utilisateurs qui connectent des communautés autrement séparées. Nous le montrons dans un modèle basé sur des agents où N=240 agents apprenants sur un réseau structuré en communautés publient chacun un contenu inoffensif, productif ou dangereux, et un régulateur supprime ou pénalise tout ce qu'un classificateur bruité signale. L'utilité globale ne bouge quasiment pas lorsque le bruit change (ANOVA univariée, p=0,96) : selon les mesures agrégées, rien ne semble anormal. Les dommages se concentrent plutôt sur ces utilisateurs-ponts, dont les publications utiles sont injustement supprimées et dont les publications dangereuses sont injustement épargnées. Une perte de gouvernance (L_gov) qui évalue ces deux erreurs séparément du coût de mise en application plus que double sous un bruit à forte proportion de faux positifs. La précision agrégée cache qui est lésé, et la quantité peu coûteuse à auditer est le nombre de connexions d'un utilisateur (degré), un proxy quasi parfait de l'intermédiarité qui définit un pont (r=0,96).

English

A content-moderation system can score well on every standard accuracy metric and still cause real harm, if its mistakes fall on the few users who connect otherwise separate communities. We show this in an agent-based model where N=240 learning agents on a community-structured network each post harmless, productive, or dangerous content, and a regulator removes or penalizes whatever a noisy classifier flags. Overall usefulness barely moves as the noise changes (one-way ANOVA, p=0.96): by aggregate measures, nothing looks wrong. The damage instead concentrates on these bridge users, whose useful posts are wrongly suppressed and whose dangerous posts are wrongly spared. A governance loss (L_gov) that prices these two mistakes separately from the cost of enforcement more than doubles under false-positive-heavy noise. Aggregate accuracy hides who is harmed, and the cheap quantity to audit is how many connections a user has (degree), a near-perfect proxy for the betweenness that defines a bridge (r=0.96).