ChatPaper.aiChatPaper

Fact2Fiction: Ataque de Envenenamento Direcionado a Sistemas de Verificação de Fatos Baseados em Agentes

Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System

August 8, 2025
Autores: Haorui He, Yupeng Li, Bin Benjamin Zhu, Dacheng Wen, Reynold Cheng, Francis C. M. Lau
cs.AI

Resumo

Sistemas de verificação de fatos de ponta combatem a desinformação em escala empregando agentes autônomos baseados em LLMs (Modelos de Linguagem de Grande Escala) para decompor alegações complexas em sub-alegações menores, verificar cada sub-alegação individualmente e agregar os resultados parciais para produzir veredictos com justificativas (razões explicativas para os veredictos). A segurança desses sistemas é crucial, pois verificadores de fatos comprometidos, que tendem a ser facilmente subexplorados, podem amplificar a desinformação. Este trabalho introduz o Fact2Fiction, o primeiro framework de ataque de envenenamento direcionado a tais sistemas de verificação de fatos baseados em agentes. O Fact2Fiction espelha a estratégia de decomposição e explora justificativas geradas pelo sistema para criar evidências maliciosas personalizadas que comprometem a verificação das sub-alegações. Experimentos extensivos demonstram que o Fact2Fiction alcança taxas de sucesso de ataque 8,9\%--21,2\% maiores do que os ataques de ponta em vários orçamentos de envenenamento. O Fact2Fiction expõe fraquezas de segurança nos sistemas atuais de verificação de fatos e destaca a necessidade de medidas defensivas.
English
State-of-the-art fact-checking systems combat misinformation at scale by employing autonomous LLM-based agents to decompose complex claims into smaller sub-claims, verify each sub-claim individually, and aggregate the partial results to produce verdicts with justifications (explanatory rationales for the verdicts). The security of these systems is crucial, as compromised fact-checkers, which tend to be easily underexplored, can amplify misinformation. This work introduces Fact2Fiction, the first poisoning attack framework targeting such agentic fact-checking systems. Fact2Fiction mirrors the decomposition strategy and exploits system-generated justifications to craft tailored malicious evidences that compromise sub-claim verification. Extensive experiments demonstrate that Fact2Fiction achieves 8.9\%--21.2\% higher attack success rates than state-of-the-art attacks across various poisoning budgets. Fact2Fiction exposes security weaknesses in current fact-checking systems and highlights the need for defensive countermeasures.
PDF42August 12, 2025