Fact2Fiction: Attacco Mirato di Avvelenamento ai Sistemi di Verifica dei Fatti Agenti
Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System
August 8, 2025
Autori: Haorui He, Yupeng Li, Bin Benjamin Zhu, Dacheng Wen, Reynold Cheng, Francis C. M. Lau
cs.AI
Abstract
I sistemi di fact-checking all'avanguardia combattono la disinformazione su larga scala impiegando agenti autonomi basati su LLM per scomporre affermazioni complesse in sotto-affermazioni più piccole, verificare ciascuna sotto-affermazione individualmente e aggregare i risultati parziali per produrre verdeti con giustificazioni (razionali esplicativi per i verdetti). La sicurezza di questi sistemi è cruciale, poiché i fact-checker compromessi, che tendono a essere facilmente sottovalutati, possono amplificare la disinformazione. Questo lavoro introduce Fact2Fiction, il primo framework di attacco di avvelenamento mirato a tali sistemi di fact-checking agentici. Fact2Fiction rispecchia la strategia di scomposizione e sfrutta le giustificazioni generate dal sistema per creare prove maligne su misura che compromettono la verifica delle sotto-affermazioni. Esperimenti estensivi dimostrano che Fact2Fiction raggiunge tassi di successo dell'attacco dall'8,9% al 21,2% superiori rispetto agli attacchi all'avanguardia in vari budget di avvelenamento. Fact2Fiction espone le debolezze di sicurezza nei sistemi di fact-checking attuali e sottolinea la necessità di contromisure difensive.
English
State-of-the-art fact-checking systems combat misinformation at scale by
employing autonomous LLM-based agents to decompose complex claims into smaller
sub-claims, verify each sub-claim individually, and aggregate the partial
results to produce verdicts with justifications (explanatory rationales for the
verdicts). The security of these systems is crucial, as compromised
fact-checkers, which tend to be easily underexplored, can amplify
misinformation. This work introduces Fact2Fiction, the first poisoning attack
framework targeting such agentic fact-checking systems. Fact2Fiction mirrors
the decomposition strategy and exploits system-generated justifications to
craft tailored malicious evidences that compromise sub-claim verification.
Extensive experiments demonstrate that Fact2Fiction achieves 8.9\%--21.2\%
higher attack success rates than state-of-the-art attacks across various
poisoning budgets. Fact2Fiction exposes security weaknesses in current
fact-checking systems and highlights the need for defensive countermeasures.