Selectieve controle onder ruisachtige waarneming: governancefalen verborgen door geaggregeerde metrieken in modulaire netwerken

Samenvatting

Een inhoudsmoderatiesysteem kan goed scoren op elke standaard nauwkeurigheidsmaatstaf en toch echte schade veroorzaken, als de fouten vallen op de weinige gebruikers die anders gescheiden gemeenschappen met elkaar verbinden. We tonen dit aan in een agent-gebaseerd model waarin N=240 lerende agenten op een gemeenschapsgestructureerd netwerk elk onschadelijke, productieve of gevaarlijke inhoud plaatsen, en een regulator verwijdert of bestraft wat een ruizige classificator markeert. De algehele bruikbaarheid beweegt nauwelijks als de ruis verandert (eenwegs-ANOVA, p=0,96): volgens geaggregeerde maatstaven ziet er niets verkeerd uit. De schade concentreert zich in plaats daarvan op deze bruggebruikers, wier nuttige berichten ten onrechte worden onderdrukt en wier gevaarlijke berichten ten onrechte worden gespaard. Een governanceverlies (L_gov) dat deze twee fouten afzonderlijk van de handhavingskosten beprijst, meer dan verdubbelt onder ruis met veel fout-positieven. Geaggregeerde nauwkeurigheid verbergt wie er wordt geschaad, en de goedkope grootheid om te controleren is het aantal verbindingen dat een gebruiker heeft (graad), een bijna perfecte proxy voor de betweenness die een brug definieert (r=0,96).

English

A content-moderation system can score well on every standard accuracy metric and still cause real harm, if its mistakes fall on the few users who connect otherwise separate communities. We show this in an agent-based model where N=240 learning agents on a community-structured network each post harmless, productive, or dangerous content, and a regulator removes or penalizes whatever a noisy classifier flags. Overall usefulness barely moves as the noise changes (one-way ANOVA, p=0.96): by aggregate measures, nothing looks wrong. The damage instead concentrates on these bridge users, whose useful posts are wrongly suppressed and whose dangerous posts are wrongly spared. A governance loss (L_gov) that prices these two mistakes separately from the cost of enforcement more than doubles under false-positive-heavy noise. Aggregate accuracy hides who is harmed, and the cheap quantity to audit is how many connections a user has (degree), a near-perfect proxy for the betweenness that defines a bridge (r=0.96).