Fact2Fiction: Ataque de Envenenamento Direcionado a Sistemas de Verificação de Fatos Baseados em Agentes
Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System
August 8, 2025
Autores: Haorui He, Yupeng Li, Bin Benjamin Zhu, Dacheng Wen, Reynold Cheng, Francis C. M. Lau
cs.AI
Resumo
Sistemas de verificação de fatos de ponta combatem a desinformação em escala empregando agentes autônomos baseados em LLMs (Modelos de Linguagem de Grande Escala) para decompor alegações complexas em sub-alegações menores, verificar cada sub-alegação individualmente e agregar os resultados parciais para produzir veredictos com justificativas (razões explicativas para os veredictos). A segurança desses sistemas é crucial, pois verificadores de fatos comprometidos, que tendem a ser facilmente subexplorados, podem amplificar a desinformação. Este trabalho introduz o Fact2Fiction, o primeiro framework de ataque de envenenamento direcionado a tais sistemas de verificação de fatos baseados em agentes. O Fact2Fiction espelha a estratégia de decomposição e explora justificativas geradas pelo sistema para criar evidências maliciosas personalizadas que comprometem a verificação das sub-alegações. Experimentos extensivos demonstram que o Fact2Fiction alcança taxas de sucesso de ataque 8,9\%--21,2\% maiores do que os ataques de ponta em vários orçamentos de envenenamento. O Fact2Fiction expõe fraquezas de segurança nos sistemas atuais de verificação de fatos e destaca a necessidade de medidas defensivas.
English
State-of-the-art fact-checking systems combat misinformation at scale by
employing autonomous LLM-based agents to decompose complex claims into smaller
sub-claims, verify each sub-claim individually, and aggregate the partial
results to produce verdicts with justifications (explanatory rationales for the
verdicts). The security of these systems is crucial, as compromised
fact-checkers, which tend to be easily underexplored, can amplify
misinformation. This work introduces Fact2Fiction, the first poisoning attack
framework targeting such agentic fact-checking systems. Fact2Fiction mirrors
the decomposition strategy and exploits system-generated justifications to
craft tailored malicious evidences that compromise sub-claim verification.
Extensive experiments demonstrate that Fact2Fiction achieves 8.9\%--21.2\%
higher attack success rates than state-of-the-art attacks across various
poisoning budgets. Fact2Fiction exposes security weaknesses in current
fact-checking systems and highlights the need for defensive countermeasures.