Fact2Fiction: Целевая атака отравления на агентскую систему проверки фактов
Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System
August 8, 2025
Авторы: Haorui He, Yupeng Li, Bin Benjamin Zhu, Dacheng Wen, Reynold Cheng, Francis C. M. Lau
cs.AI
Аннотация
Современные системы проверки фактов борются с дезинформацией в масштабе, используя автономных агентов на основе больших языковых моделей (LLM) для декомпозиции сложных утверждений на более мелкие подутверждения, проверки каждого подутверждения по отдельности и агрегирования частичных результатов для вынесения вердиктов с обоснованиями (пояснительными аргументами для вердиктов). Безопасность этих систем имеет критическое значение, поскольку скомпрометированные системы проверки фактов, которые часто остаются недостаточно изученными, могут усиливать дезинформацию. В данной работе представлен Fact2Fiction — первый фреймворк для атак с отравлением, нацеленных на такие агентские системы проверки фактов. Fact2Fiction повторяет стратегию декомпозиции и использует сгенерированные системой обоснования для создания адаптированных вредоносных доказательств, которые компрометируют проверку подутверждений. Эксперименты показывают, что Fact2Fiction достигает на 8,9\%–21,2\% более высоких показателей успешности атак по сравнению с современными методами при различных бюджетах отравления. Fact2Fiction выявляет уязвимости в текущих системах проверки фактов и подчеркивает необходимость разработки защитных мер.
English
State-of-the-art fact-checking systems combat misinformation at scale by
employing autonomous LLM-based agents to decompose complex claims into smaller
sub-claims, verify each sub-claim individually, and aggregate the partial
results to produce verdicts with justifications (explanatory rationales for the
verdicts). The security of these systems is crucial, as compromised
fact-checkers, which tend to be easily underexplored, can amplify
misinformation. This work introduces Fact2Fiction, the first poisoning attack
framework targeting such agentic fact-checking systems. Fact2Fiction mirrors
the decomposition strategy and exploits system-generated justifications to
craft tailored malicious evidences that compromise sub-claim verification.
Extensive experiments demonstrate that Fact2Fiction achieves 8.9\%--21.2\%
higher attack success rates than state-of-the-art attacks across various
poisoning budgets. Fact2Fiction exposes security weaknesses in current
fact-checking systems and highlights the need for defensive countermeasures.