팩트 체크에서 대규모 언어 모델의 포괄적 단계별 벤치마킹을 향하여
Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking
January 6, 2026
저자: Hongzhan Lin, Zixin Chen, Zhiqi Shen, Ziyang Luo, Zhen Ye, Jing Ma, Tat-Seng Chua, Guandong Xu
cs.AI
초록
대규모 언어 모델(LLM)이 실제 팩트체킹 시스템에 점점 더 많이 배포되고 있지만, 기존 평가는 주로 주장 검증에 초점을 맞추고, 주장 추출 및 증거 수집을 포함한 더 넓은 팩트체킹 워크플로우를 간과해 왔습니다. 이러한 편향된 초점으로 인해 현재 벤치마크는 현대 LLM의 체계적 추론 실패, 사실적 맹점 및 강건성 한계를 드러내지 못하고 있습니다. 이러한 격차를 해소하기 위해 우리는 완전한 팩트체킹 파이프라인 전반에 걸쳐 LLM의 포괄적이고 단계별 벤치마킹을 수행하는 완전 자동화된 아레나 스타일 평가 프레임워크인 FactArena을 제시합니다. FactArena은 세 가지 핵심 구성요소를 통합합니다: (i) 주장 분해, 도구 기반 상호작용을 통한 증거 수집, 근거 기반 판단 예측을 표준화하는 LLM 기반 팩트체킹 프로세스; (ii) 이질적인 판단 에이전트 간의 편향되지 않고 일관된 쌍별 비교를 보장하기 위해 통합 참조 가이드라인에 따라 진행되는 아레나 스타일 판단 메커니즘; (iii) 고정된 시드 데이터를 넘어 LLM의 사실적 강건성을 탐구하기 위해 더 도전적이고 의미론적으로 통제된 주장을 적응적으로 생성하는 아레나 기반 주장 진화 모듈. 7개 모델 패밀리에 걸친 16개의 최신 LLM을 대상으로 한 평가에서 FactArena은 안정적이고 해석 가능한 순위를 생성합니다. 우리의 분석은 정적 주장 검증 정확도와 종단간 팩트체킹 능력 사이에 상당한 차이가 있음을 추가로 밝혀내며, 전체론적 평가의 필요성을 강조합니다. 제안된 프레임워크는 LLM의 사실적 추론 진단, 향후 모델 개발 지도, 그리고 안전이 중요한 팩트체킹 애플리케이션에서 LLM의 신뢰할 수 있는 배포를 앞당기기 위한 확장 가능하고 신뢰할 수 있는 패러다임을 제공합니다.
English
Large Language Models (LLMs) are increasingly deployed in real-world fact-checking systems, yet existing evaluations focus predominantly on claim verification and overlook the broader fact-checking workflow, including claim extraction and evidence retrieval. This narrow focus prevents current benchmarks from revealing systematic reasoning failures, factual blind spots, and robustness limitations of modern LLMs. To bridge this gap, we present FactArena, a fully automated arena-style evaluation framework that conducts comprehensive, stage-wise benchmarking of LLMs across the complete fact-checking pipeline. FactArena integrates three key components: (i) an LLM-driven fact-checking process that standardizes claim decomposition, evidence retrieval via tool-augmented interactions, and justification-based verdict prediction; (ii) an arena-styled judgment mechanism guided by consolidated reference guidelines to ensure unbiased and consistent pairwise comparisons across heterogeneous judge agents; and (iii) an arena-driven claim-evolution module that adaptively generates more challenging and semantically controlled claims to probe LLMs' factual robustness beyond fixed seed data. Across 16 state-of-the-art LLMs spanning seven model families, FactArena produces stable and interpretable rankings. Our analyses further reveal significant discrepancies between static claim-verification accuracy and end-to-end fact-checking competence, highlighting the necessity of holistic evaluation. The proposed framework offers a scalable and trustworthy paradigm for diagnosing LLMs' factual reasoning, guiding future model development, and advancing the reliable deployment of LLMs in safety-critical fact-checking applications.