Fact2Fiction : Attaque par empoisonnement ciblée contre un système de vérification des faits agentique
Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System
August 8, 2025
papers.authors: Haorui He, Yupeng Li, Bin Benjamin Zhu, Dacheng Wen, Reynold Cheng, Francis C. M. Lau
cs.AI
papers.abstract
Les systèmes de vérification des faits les plus avancés luttent contre la désinformation à grande échelle en employant des agents autonomes basés sur des modèles de langage (LLM) pour décomposer des affirmations complexes en sous-affirmations plus petites, vérifier chaque sous-affirmation individuellement, et agréger les résultats partiels pour produire des verdicts accompagnés de justifications (des explications rationnelles pour les verdicts). La sécurité de ces systèmes est cruciale, car des vérificateurs de faits compromis, qui tendent à être facilement sous-explorés, peuvent amplifier la désinformation. Ce travail présente Fact2Fiction, le premier cadre d'attaque par empoisonnement ciblant ces systèmes de vérification des faits basés sur des agents. Fact2Fiction reflète la stratégie de décomposition et exploite les justifications générées par le système pour créer des preuves malveillantes sur mesure qui compromettent la vérification des sous-affirmations. Des expériences approfondies démontrent que Fact2Fiction atteint des taux de réussite d'attaque de 8,9 % à 21,2 % supérieurs à ceux des attaques les plus avancées, pour différents budgets d'empoisonnement. Fact2Fiction expose les faiblesses de sécurité des systèmes actuels de vérification des faits et souligne la nécessité de mesures défensives.
English
State-of-the-art fact-checking systems combat misinformation at scale by
employing autonomous LLM-based agents to decompose complex claims into smaller
sub-claims, verify each sub-claim individually, and aggregate the partial
results to produce verdicts with justifications (explanatory rationales for the
verdicts). The security of these systems is crucial, as compromised
fact-checkers, which tend to be easily underexplored, can amplify
misinformation. This work introduces Fact2Fiction, the first poisoning attack
framework targeting such agentic fact-checking systems. Fact2Fiction mirrors
the decomposition strategy and exploits system-generated justifications to
craft tailored malicious evidences that compromise sub-claim verification.
Extensive experiments demonstrate that Fact2Fiction achieves 8.9\%--21.2\%
higher attack success rates than state-of-the-art attacks across various
poisoning budgets. Fact2Fiction exposes security weaknesses in current
fact-checking systems and highlights the need for defensive countermeasures.