Fact2Fiction: Ataque de envenenamiento dirigido a sistemas de verificación de hechos basados en agentes
Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System
August 8, 2025
Autores: Haorui He, Yupeng Li, Bin Benjamin Zhu, Dacheng Wen, Reynold Cheng, Francis C. M. Lau
cs.AI
Resumen
Los sistemas de verificación de hechos más avanzados combaten la desinformación a gran escala empleando agentes autónomos basados en LLM (Modelos de Lenguaje de Gran Escala) para descomponer afirmaciones complejas en sub-afirmaciones más pequeñas, verificar cada sub-afirmación de manera individual y agregar los resultados parciales para producir veredictos con justificaciones (explicaciones racionales de los veredictos). La seguridad de estos sistemas es crucial, ya que los verificadores de hechos comprometidos, que tienden a ser fácilmente subexplorados, pueden amplificar la desinformación. Este trabajo presenta Fact2Fiction, el primer marco de ataque de envenenamiento dirigido a estos sistemas de verificación de hechos basados en agentes. Fact2Fiction refleja la estrategia de descomposición y aprovecha las justificaciones generadas por el sistema para crear evidencias maliciosas personalizadas que comprometen la verificación de sub-afirmaciones. Experimentos extensivos demuestran que Fact2Fiction logra tasas de éxito de ataque entre un 8.9\% y un 21.2\% más altas que los ataques más avanzados en diversos presupuestos de envenenamiento. Fact2Fiction expone debilidades de seguridad en los sistemas actuales de verificación de hechos y resalta la necesidad de contramedidas defensivas.
English
State-of-the-art fact-checking systems combat misinformation at scale by
employing autonomous LLM-based agents to decompose complex claims into smaller
sub-claims, verify each sub-claim individually, and aggregate the partial
results to produce verdicts with justifications (explanatory rationales for the
verdicts). The security of these systems is crucial, as compromised
fact-checkers, which tend to be easily underexplored, can amplify
misinformation. This work introduces Fact2Fiction, the first poisoning attack
framework targeting such agentic fact-checking systems. Fact2Fiction mirrors
the decomposition strategy and exploits system-generated justifications to
craft tailored malicious evidences that compromise sub-claim verification.
Extensive experiments demonstrate that Fact2Fiction achieves 8.9\%--21.2\%
higher attack success rates than state-of-the-art attacks across various
poisoning budgets. Fact2Fiction exposes security weaknesses in current
fact-checking systems and highlights the need for defensive countermeasures.