Controle Seletivo sob Percepção Ruidosa: Falhas de Governança Ocultas por Métricas Agregadas em Redes Modulares

Resumo

Um sistema de moderação de conteúdo pode obter uma pontuação elevada em todas as métricas padrão de exatidão e ainda assim causar danos reais, se seus erros recaírem sobre os poucos usuários que conectam comunidades, de outra forma, separadas. Demonstramos isso em um modelo baseado em agentes, no qual N=240 agentes aprendizes em uma rede estruturada em comunidades publicam conteúdo inofensivo, produtivo ou perigoso, e um regulador remove ou penaliza tudo o que um classificador ruidoso sinaliza. A utilidade geral quase não se altera à medida que o ruído muda (ANOVA de um fator, p=0,96): por medidas agregadas, nada parece errado. O dano, em vez disso, concentra-se nesses usuários-ponte, cujas postagens úteis são suprimidas indevidamente e cujas postagens perigosas são erroneamente poupadas. Uma perda de governança (L_gov) que precifica esses dois erros separadamente do custo da aplicação mais do que dobra sob um ruído com muitos falsos positivos. A exatidão agregada oculta quem é prejudicado, e a quantidade barata de auditar é quantas conexões um usuário possui (grau), uma proxy quase perfeita para a centralidade de intermediação que define uma ponte (r=0,96).

English

A content-moderation system can score well on every standard accuracy metric and still cause real harm, if its mistakes fall on the few users who connect otherwise separate communities. We show this in an agent-based model where N=240 learning agents on a community-structured network each post harmless, productive, or dangerous content, and a regulator removes or penalizes whatever a noisy classifier flags. Overall usefulness barely moves as the noise changes (one-way ANOVA, p=0.96): by aggregate measures, nothing looks wrong. The damage instead concentrates on these bridge users, whose useful posts are wrongly suppressed and whose dangerous posts are wrongly spared. A governance loss (L_gov) that prices these two mistakes separately from the cost of enforcement more than doubles under false-positive-heavy noise. Aggregate accuracy hides who is harmed, and the cheap quantity to audit is how many connections a user has (degree), a near-perfect proxy for the betweenness that defines a bridge (r=0.96).