大規模言語モデルのファクトチェックにおける段階的ベンチマークの包括的構築に向けて
Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking
January 6, 2026
著者: Hongzhan Lin, Zixin Chen, Zhiqi Shen, Ziyang Luo, Zhen Ye, Jing Ma, Tat-Seng Chua, Guandong Xu
cs.AI
要旨
大規模言語モデル(LLM)は実世界のファクトチェックシステムにおいてますます利用が進んでいるが、既存の評価は主張検証に偏りがちで、主張の抽出や証拠収集を含むより広範なファクトチェックワークフローを見落としている。この狭隘な焦点のため、現行のベンチマークは現代のLLMが持つ体系的な推論失敗、事実的盲点、ロバスト性の限界を明らかにできていない。この隔たりを埋めるため、我々はFactArenaを提案する。これは完全自動化されたアリーナ形式の評価フレームワークであり、ファクトチェック全パイプラインにわたるLLMの段階的かつ包括的なベンチマークを実施する。FactArenaは以下の3つの主要コンポーネントを統合する:(i)主張の分解、ツール拡張インタラクションによる証拠収集、根拠に基づく判定予測を標準化するLLM駆動のファクトチェックプロセス、(ii)統合された参照ガイドラインに導かれたアリーナ形式判定メカニズム。これにより、異種混合の判定エージェント間で偏りなく一貫したペアワイズ比較を保証する、(iii)固定シードデータを超えてLLMの事実的ロバスト性を探るため、より挑戦的で意味論的に制御された主張を適応的に生成するアリーナ駆動の主張進化モジュール。7つのモデルファミリーにまたがる16の最先端LLMに対する評価において、FactArenaは安定した解釈可能な順位付けを生成する。我々の分析はさらに、静的な主張検証精度とエンドツーエンドのファクトチェック能力との間に有意な乖離があることを明らかにし、包括的評価の必要性を浮き彫りにする。提案フレームワークは、LLMの事実推論を診断し、将来のモデル開発を導き、安全がクリティカルなファクトチェック応用におけるLLMの信頼性高い展開を推進するための、スケーラブルで信頼できるパラダイムを提供する。
English
Large Language Models (LLMs) are increasingly deployed in real-world fact-checking systems, yet existing evaluations focus predominantly on claim verification and overlook the broader fact-checking workflow, including claim extraction and evidence retrieval. This narrow focus prevents current benchmarks from revealing systematic reasoning failures, factual blind spots, and robustness limitations of modern LLMs. To bridge this gap, we present FactArena, a fully automated arena-style evaluation framework that conducts comprehensive, stage-wise benchmarking of LLMs across the complete fact-checking pipeline. FactArena integrates three key components: (i) an LLM-driven fact-checking process that standardizes claim decomposition, evidence retrieval via tool-augmented interactions, and justification-based verdict prediction; (ii) an arena-styled judgment mechanism guided by consolidated reference guidelines to ensure unbiased and consistent pairwise comparisons across heterogeneous judge agents; and (iii) an arena-driven claim-evolution module that adaptively generates more challenging and semantically controlled claims to probe LLMs' factual robustness beyond fixed seed data. Across 16 state-of-the-art LLMs spanning seven model families, FactArena produces stable and interpretable rankings. Our analyses further reveal significant discrepancies between static claim-verification accuracy and end-to-end fact-checking competence, highlighting the necessity of holistic evaluation. The proposed framework offers a scalable and trustworthy paradigm for diagnosing LLMs' factual reasoning, guiding future model development, and advancing the reliable deployment of LLMs in safety-critical fact-checking applications.