Control selectivo bajo percepción ruidosa: fallos de gobernanza ocultos por métricas agregadas en redes modulares

Resumen

Un sistema de moderación de contenido puede obtener una puntuación alta en todas las métricas de precisión estándar y, no obstante, causar daños reales si sus errores recaen sobre los pocos usuarios que conectan comunidades por lo demás separadas. Esto se demuestra en un modelo basado en agentes donde N=240 agentes de aprendizaje, organizados en una red con estructura comunitaria, publican contenido inofensivo, productivo o peligroso, y un regulador elimina o penaliza todo lo que un clasificador ruidoso señala. La utilidad general apenas varía al cambiar el ruido (ANOVA de un factor, p=0.96): según las medidas agregadas, nada parece estar mal. El daño, en cambio, se concentra en estos usuarios puente, cuyas publicaciones útiles son suprimidas erróneamente y cuyas publicaciones peligrosas son indebidamente perdonadas. Una pérdida de gobernanza (L_gov) que valora estos dos errores por separado del costo de la aplicación se duplica bajo un ruido con predominio de falsos positivos. La precisión agregada oculta quiénes resultan perjudicados, y la variable económica de auditar es cuántas conexiones tiene un usuario (grado), un proxy casi perfecto para la intermediación que define a un puente (r=0.96).

English

A content-moderation system can score well on every standard accuracy metric and still cause real harm, if its mistakes fall on the few users who connect otherwise separate communities. We show this in an agent-based model where N=240 learning agents on a community-structured network each post harmless, productive, or dangerous content, and a regulator removes or penalizes whatever a noisy classifier flags. Overall usefulness barely moves as the noise changes (one-way ANOVA, p=0.96): by aggregate measures, nothing looks wrong. The damage instead concentrates on these bridge users, whose useful posts are wrongly suppressed and whose dangerous posts are wrongly spared. A governance loss (L_gov) that prices these two mistakes separately from the cost of enforcement more than doubles under false-positive-heavy noise. Aggregate accuracy hides who is harmed, and the cheap quantity to audit is how many connections a user has (degree), a near-perfect proxy for the betweenness that defines a bridge (r=0.96).