Fact2Fiction: Gerichte vergiftigingsaanval op agentisch feitencontrolesysteem
Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System
August 8, 2025
Auteurs: Haorui He, Yupeng Li, Bin Benjamin Zhu, Dacheng Wen, Reynold Cheng, Francis C. M. Lau
cs.AI
Samenvatting
State-of-the-art factcheckingsystemen bestrijden desinformatie op grote schaal door autonome, op grote taalmodelen (LLM) gebaseerde agents in te zetten om complexe beweringen te ontleden in kleinere sub-beweringen, elke sub-bewering afzonderlijk te verifiëren, en de gedeeltelijke resultaten samen te voegen om uitspraken te produceren met rechtvaardigingen (verklarende redeneringen voor de uitspraken). De beveiliging van deze systemen is cruciaal, omdat gecompromitteerde factcheckers, die vaak gemakkelijk over het hoofd worden gezien, desinformatie kunnen versterken. Dit werk introduceert Fact2Fiction, het eerste vergiftigingsaanvalsframework dat zich richt op dergelijke agent-gebaseerde factcheckingsystemen. Fact2Fiction spiegelt de ontleedstrategie en maakt gebruik van door het systeem gegenereerde rechtvaardigingen om op maat gemaakte kwaadaardige bewijzen te creëren die de verificatie van sub-beweringen compromitteren. Uitgebreide experimenten tonen aan dat Fact2Fiction 8,9\%--21,2\% hogere aanvalssuccespercentages behaalt dan state-of-the-art aanvallen bij verschillende vergiftigingsbudgetten. Fact2Fiction legt beveiligingszwakheden bloot in huidige factcheckingsystemen en benadrukt de noodzaak van defensieve tegenmaatregelen.
English
State-of-the-art fact-checking systems combat misinformation at scale by
employing autonomous LLM-based agents to decompose complex claims into smaller
sub-claims, verify each sub-claim individually, and aggregate the partial
results to produce verdicts with justifications (explanatory rationales for the
verdicts). The security of these systems is crucial, as compromised
fact-checkers, which tend to be easily underexplored, can amplify
misinformation. This work introduces Fact2Fiction, the first poisoning attack
framework targeting such agentic fact-checking systems. Fact2Fiction mirrors
the decomposition strategy and exploits system-generated justifications to
craft tailored malicious evidences that compromise sub-claim verification.
Extensive experiments demonstrate that Fact2Fiction achieves 8.9\%--21.2\%
higher attack success rates than state-of-the-art attacks across various
poisoning budgets. Fact2Fiction exposes security weaknesses in current
fact-checking systems and highlights the need for defensive countermeasures.