Fact2Fiction: Gerichte vergiftigingsaanval op agentisch feitencontrolesysteem

Samenvatting

State-of-the-art factcheckingsystemen bestrijden desinformatie op grote schaal door autonome, op grote taalmodelen (LLM) gebaseerde agents in te zetten om complexe beweringen te ontleden in kleinere sub-beweringen, elke sub-bewering afzonderlijk te verifiëren, en de gedeeltelijke resultaten samen te voegen om uitspraken te produceren met rechtvaardigingen (verklarende redeneringen voor de uitspraken). De beveiliging van deze systemen is cruciaal, omdat gecompromitteerde factcheckers, die vaak gemakkelijk over het hoofd worden gezien, desinformatie kunnen versterken. Dit werk introduceert Fact2Fiction, het eerste vergiftigingsaanvalsframework dat zich richt op dergelijke agent-gebaseerde factcheckingsystemen. Fact2Fiction spiegelt de ontleedstrategie en maakt gebruik van door het systeem gegenereerde rechtvaardigingen om op maat gemaakte kwaadaardige bewijzen te creëren die de verificatie van sub-beweringen compromitteren. Uitgebreide experimenten tonen aan dat Fact2Fiction 8,9\%--21,2\% hogere aanvalssuccespercentages behaalt dan state-of-the-art aanvallen bij verschillende vergiftigingsbudgetten. Fact2Fiction legt beveiligingszwakheden bloot in huidige factcheckingsystemen en benadrukt de noodzaak van defensieve tegenmaatregelen.

English

State-of-the-art fact-checking systems combat misinformation at scale by employing autonomous LLM-based agents to decompose complex claims into smaller sub-claims, verify each sub-claim individually, and aggregate the partial results to produce verdicts with justifications (explanatory rationales for the verdicts). The security of these systems is crucial, as compromised fact-checkers, which tend to be easily underexplored, can amplify misinformation. This work introduces Fact2Fiction, the first poisoning attack framework targeting such agentic fact-checking systems. Fact2Fiction mirrors the decomposition strategy and exploits system-generated justifications to craft tailored malicious evidences that compromise sub-claim verification. Extensive experiments demonstrate that Fact2Fiction achieves 8.9\%--21.2\% higher attack success rates than state-of-the-art attacks across various poisoning budgets. Fact2Fiction exposes security weaknesses in current fact-checking systems and highlights the need for defensive countermeasures.

Fact2Fiction: Gerichte vergiftigingsaanval op agentisch feitencontrolesysteem

Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System

Samenvatting

Support