Fact2Fiction: 에이전트 기반 사실 확인 시스템을 겨냥한 표적 중독 공격
Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System
August 8, 2025
저자: Haorui He, Yupeng Li, Bin Benjamin Zhu, Dacheng Wen, Reynold Cheng, Francis C. M. Lau
cs.AI
초록
최신 사실 확인 시스템은 대규모로 유포되는 허위 정보를 방어하기 위해 자율적인 대형 언어 모델(LLM) 기반 에이전트를 활용하여 복잡한 주장을 더 작은 하위 주장으로 분해하고, 각 하위 주장을 개별적으로 검증하며, 부분적인 결과를 종합하여 근거(판단에 대한 설명적 논리)를 포함한 결론을 도출한다. 이러한 시스템의 보안은 매우 중요하며, 보안이 취약한 사실 확인 시스템은 오히려 허위 정보를 확산시킬 수 있다. 본 연구는 이러한 에이전트 기반 사실 확인 시스템을 대상으로 한 최초의 중독 공격 프레임워크인 Fact2Fiction을 소개한다. Fact2Fiction은 분해 전략을 모방하고 시스템이 생성한 근거를 활용하여 하위 주장 검증을 훼손하는 맞춤형 악성 증거를 제작한다. 다양한 중독 예산 범위에서 Fact2Fiction은 기존 최신 공격 대비 8.9\%--21.2\% 더 높은 공격 성공률을 달성함을 실험을 통해 입증하였다. Fact2Fiction은 현재의 사실 확인 시스템이 지닌 보안 취약점을 드러내며, 방어적 대책의 필요성을 강조한다.
English
State-of-the-art fact-checking systems combat misinformation at scale by
employing autonomous LLM-based agents to decompose complex claims into smaller
sub-claims, verify each sub-claim individually, and aggregate the partial
results to produce verdicts with justifications (explanatory rationales for the
verdicts). The security of these systems is crucial, as compromised
fact-checkers, which tend to be easily underexplored, can amplify
misinformation. This work introduces Fact2Fiction, the first poisoning attack
framework targeting such agentic fact-checking systems. Fact2Fiction mirrors
the decomposition strategy and exploits system-generated justifications to
craft tailored malicious evidences that compromise sub-claim verification.
Extensive experiments demonstrate that Fact2Fiction achieves 8.9\%--21.2\%
higher attack success rates than state-of-the-art attacks across various
poisoning budgets. Fact2Fiction exposes security weaknesses in current
fact-checking systems and highlights the need for defensive countermeasures.