Fact2Fiction: Gezielter Angriff durch Vergiftung auf agentenbasiertes Faktenprüfungssystem

papers.abstract

State-of-the-art Faktenprüfungssysteme bekämpfen Fehlinformationen im großen Maßstab, indem sie autonome, auf großen Sprachmodellen (LLM) basierende Agenten einsetzen, um komplexe Behauptungen in kleinere Teilbehauptungen zu zerlegen, jede Teilbehauptung einzeln zu überprüfen und die Teilergebnisse zu aggregieren, um Urteile mit Begründungen (erklärende Rationale für die Urteile) zu erzeugen. Die Sicherheit dieser Systeme ist von entscheidender Bedeutung, da kompromittierte Faktenprüfer, die tendenziell leicht unerforscht bleiben, Fehlinformationen verstärken können. Diese Arbeit stellt Fact2Fiction vor, das erste Vergiftungsangriff-Framework, das solche agentenbasierten Faktenprüfungssysteme ins Visier nimmt. Fact2Fiction spiegelt die Zerlegungsstrategie wider und nutzt systemgenerierte Begründungen, um maßgeschneiderte bösartige Beweise zu erstellen, die die Überprüfung von Teilbehauptungen kompromittieren. Umfangreiche Experimente zeigen, dass Fact2Fiction im Vergleich zu state-of-the-art Angriffen über verschiedene Vergiftungsbudgets hinweg 8,9\%--21,2\% höhere Angriffserfolgsraten erzielt. Fact2Fiction deckt Sicherheitsschwächen in aktuellen Faktenprüfungssystemen auf und unterstreicht die Notwendigkeit defensiver Gegenmaßnahmen.

English

State-of-the-art fact-checking systems combat misinformation at scale by employing autonomous LLM-based agents to decompose complex claims into smaller sub-claims, verify each sub-claim individually, and aggregate the partial results to produce verdicts with justifications (explanatory rationales for the verdicts). The security of these systems is crucial, as compromised fact-checkers, which tend to be easily underexplored, can amplify misinformation. This work introduces Fact2Fiction, the first poisoning attack framework targeting such agentic fact-checking systems. Fact2Fiction mirrors the decomposition strategy and exploits system-generated justifications to craft tailored malicious evidences that compromise sub-claim verification. Extensive experiments demonstrate that Fact2Fiction achieves 8.9\%--21.2\% higher attack success rates than state-of-the-art attacks across various poisoning budgets. Fact2Fiction exposes security weaknesses in current fact-checking systems and highlights the need for defensive countermeasures.

Fact2Fiction: Gezielter Angriff durch Vergiftung auf agentenbasiertes Faktenprüfungssystem

Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System

papers.abstract

Support