Fact2Fiction: Ataque de envenenamiento dirigido a sistemas de verificación de hechos basados en agentes

Resumen

Los sistemas de verificación de hechos más avanzados combaten la desinformación a gran escala empleando agentes autónomos basados en LLM (Modelos de Lenguaje de Gran Escala) para descomponer afirmaciones complejas en sub-afirmaciones más pequeñas, verificar cada sub-afirmación de manera individual y agregar los resultados parciales para producir veredictos con justificaciones (explicaciones racionales de los veredictos). La seguridad de estos sistemas es crucial, ya que los verificadores de hechos comprometidos, que tienden a ser fácilmente subexplorados, pueden amplificar la desinformación. Este trabajo presenta Fact2Fiction, el primer marco de ataque de envenenamiento dirigido a estos sistemas de verificación de hechos basados en agentes. Fact2Fiction refleja la estrategia de descomposición y aprovecha las justificaciones generadas por el sistema para crear evidencias maliciosas personalizadas que comprometen la verificación de sub-afirmaciones. Experimentos extensivos demuestran que Fact2Fiction logra tasas de éxito de ataque entre un 8.9\% y un 21.2\% más altas que los ataques más avanzados en diversos presupuestos de envenenamiento. Fact2Fiction expone debilidades de seguridad en los sistemas actuales de verificación de hechos y resalta la necesidad de contramedidas defensivas.

English

State-of-the-art fact-checking systems combat misinformation at scale by employing autonomous LLM-based agents to decompose complex claims into smaller sub-claims, verify each sub-claim individually, and aggregate the partial results to produce verdicts with justifications (explanatory rationales for the verdicts). The security of these systems is crucial, as compromised fact-checkers, which tend to be easily underexplored, can amplify misinformation. This work introduces Fact2Fiction, the first poisoning attack framework targeting such agentic fact-checking systems. Fact2Fiction mirrors the decomposition strategy and exploits system-generated justifications to craft tailored malicious evidences that compromise sub-claim verification. Extensive experiments demonstrate that Fact2Fiction achieves 8.9\%--21.2\% higher attack success rates than state-of-the-art attacks across various poisoning budgets. Fact2Fiction exposes security weaknesses in current fact-checking systems and highlights the need for defensive countermeasures.

Fact2Fiction: Ataque de envenenamiento dirigido a sistemas de verificación de hechos basados en agentes

Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System

Resumen

Support