ChatPaper.aiChatPaper

CiteAudit: 引用したけど、本当に読みましたか?LLM時代における科学文献参照検証のベンチマーク

CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era

February 26, 2026
著者: Zhengqing Yuan, Kaiwen Shi, Zheyuan Zhang, Lichao Sun, Nitesh V. Chawla, Yanfang Ye
cs.AI

要旨

科学的研究は、帰属表示と誠実性の観点から正確な引用に依存しているが、大規模言語モデル(LLM)は新たなリスクをもたらす。実際には存在しない学術出版物を参照する、もっともらしい虚偽の参考文献である。このような幻覚的引用は、主要な機械学習カンファレンスの投稿論文や採録論文において既に確認されており、査読プロセスの脆弱性を露呈している。一方、急速に増加する参考文献リストにより手動での検証は非現実的となり、既存の自動ツールは雑多で多様な引用形式に弱く、標準化された評価手法を欠いている。本研究は、科学論文における幻覚的引用に対する初の包括的ベンチマークと検出フレームワークを提案する。マルチエージェント検証パイプラインは、引用チェックを「主張抽出」「証拠検索」「文章照合」「推論」「較正判断」に分解し、引用元が実際に主張を裏付けているかを評価する。大規模な人手検証データセットを学術分野横断的に構築し、引用の忠実性と証拠整合性の統一指標を定義した。最先端LLMを用いた実験では、深刻な引用誤りが明らかとなり、本フレームワークが従来手法を精度と解釈可能性の両面で大幅に上回ることを示した。本研究成果は、LLM時代における引用監査の初のスケーラブルな基盤を提供し、科学文献の信頼性向上に寄与する実用的ツールとなる。
English
Scientific research relies on accurate citation for attribution and integrity, yet large language models (LLMs) introduce a new risk: fabricated references that appear plausible but correspond to no real publications. Such hallucinated citations have already been observed in submissions and accepted papers at major machine learning venues, exposing vulnerabilities in peer review. Meanwhile, rapidly growing reference lists make manual verification impractical, and existing automated tools remain fragile to noisy and heterogeneous citation formats and lack standardized evaluation. We present the first comprehensive benchmark and detection framework for hallucinated citations in scientific writing. Our multi-agent verification pipeline decomposes citation checking into claim extraction, evidence retrieval, passage matching, reasoning, and calibrated judgment to assess whether a cited source truly supports its claim. We construct a large-scale human-validated dataset across domains and define unified metrics for citation faithfulness and evidence alignment. Experiments with state-of-the-art LLMs reveal substantial citation errors and show that our framework significantly outperforms prior methods in both accuracy and interpretability. This work provides the first scalable infrastructure for auditing citations in the LLM era and practical tools to improve the trustworthiness of scientific references.
PDF163March 7, 2026