Fact2Fiction: Gezielter Angriff durch Vergiftung auf agentenbasiertes Faktenprüfungssystem
Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System
August 8, 2025
papers.authors: Haorui He, Yupeng Li, Bin Benjamin Zhu, Dacheng Wen, Reynold Cheng, Francis C. M. Lau
cs.AI
papers.abstract
State-of-the-art Faktenprüfungssysteme bekämpfen Fehlinformationen im großen Maßstab, indem sie autonome, auf großen Sprachmodellen (LLM) basierende Agenten einsetzen, um komplexe Behauptungen in kleinere Teilbehauptungen zu zerlegen, jede Teilbehauptung einzeln zu überprüfen und die Teilergebnisse zu aggregieren, um Urteile mit Begründungen (erklärende Rationale für die Urteile) zu erzeugen. Die Sicherheit dieser Systeme ist von entscheidender Bedeutung, da kompromittierte Faktenprüfer, die tendenziell leicht unerforscht bleiben, Fehlinformationen verstärken können. Diese Arbeit stellt Fact2Fiction vor, das erste Vergiftungsangriff-Framework, das solche agentenbasierten Faktenprüfungssysteme ins Visier nimmt. Fact2Fiction spiegelt die Zerlegungsstrategie wider und nutzt systemgenerierte Begründungen, um maßgeschneiderte bösartige Beweise zu erstellen, die die Überprüfung von Teilbehauptungen kompromittieren. Umfangreiche Experimente zeigen, dass Fact2Fiction im Vergleich zu state-of-the-art Angriffen über verschiedene Vergiftungsbudgets hinweg 8,9\%--21,2\% höhere Angriffserfolgsraten erzielt. Fact2Fiction deckt Sicherheitsschwächen in aktuellen Faktenprüfungssystemen auf und unterstreicht die Notwendigkeit defensiver Gegenmaßnahmen.
English
State-of-the-art fact-checking systems combat misinformation at scale by
employing autonomous LLM-based agents to decompose complex claims into smaller
sub-claims, verify each sub-claim individually, and aggregate the partial
results to produce verdicts with justifications (explanatory rationales for the
verdicts). The security of these systems is crucial, as compromised
fact-checkers, which tend to be easily underexplored, can amplify
misinformation. This work introduces Fact2Fiction, the first poisoning attack
framework targeting such agentic fact-checking systems. Fact2Fiction mirrors
the decomposition strategy and exploits system-generated justifications to
craft tailored malicious evidences that compromise sub-claim verification.
Extensive experiments demonstrate that Fact2Fiction achieves 8.9\%--21.2\%
higher attack success rates than state-of-the-art attacks across various
poisoning budgets. Fact2Fiction exposes security weaknesses in current
fact-checking systems and highlights the need for defensive countermeasures.