ChatPaper.aiChatPaper

CiteAudit: 인용했지만, 정말 읽었나요? LLM 시대의 과학적 참고문헌 검증 벤치마크

CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era

February 26, 2026
저자: Zhengqing Yuan, Kaiwen Shi, Zheyuan Zhang, Lichao Sun, Nitesh V. Chawla, Yanfang Ye
cs.AI

초록

과학적 연구는 귀속과 정확성을 위해 정확한 인용에 의존하지만, 대규모 언어 모델(LLM)은 새로운 위험을 야기합니다. 그럴듯해 보이지만 실제 출판물에 대응되지 않는 조작된 참고문헌이 그것입니다. 이러한 허구적 인용은 주요 머신러닝 학회의 투고 및 게재 논문에서 이미 관찰되었으며, 동료 검토의 취약점을 드러내고 있습니다. 한편 급증하는 참고문헌 목록은 수동 검증을 현실적으로 불가능하게 만들며, 기존 자동화 도구들은 노이즈가 많고 이질적인 인용 형식에 취약하고 표준화된 평가가 부족한 실정입니다. 본 연구는 과학적 글쓰기에서 허구적 인용을 위한 최초의 포괄적 벤치마크 및 탐지 프레임워크를 제시합니다. 우리의 다중 에이전트 검증 파이프라인은 인용 검사를 주장 추출, 증거 검색, 문단 매칭, 추론 및 보정된 판단으로 분해하여 인용된 출처가 해당 주장을 진정으로 지지하는지 평가합니다. 우리는 다양한 분야에 걸친 대규모의 인간 검증 데이터셋을 구축하고 인용 충실도와 증거 정합성을 위한 통합 지표를 정의합니다. 최첨단 LLM을 이용한 실험은 상당한 수준의 인용 오류를 드러내며, 우리 프레임워크가 정확도와 해석 가능성 모두에서 기존 방법을 크게 능가함을 보여줍니다. 이 연구는 LLM 시대에 인용을 감사하기 위한 최초의 확장 가능한 인프라와 과학적 참고문헌의 신뢰성을 높이기 위한 실용적인 도구를 제공합니다.
English
Scientific research relies on accurate citation for attribution and integrity, yet large language models (LLMs) introduce a new risk: fabricated references that appear plausible but correspond to no real publications. Such hallucinated citations have already been observed in submissions and accepted papers at major machine learning venues, exposing vulnerabilities in peer review. Meanwhile, rapidly growing reference lists make manual verification impractical, and existing automated tools remain fragile to noisy and heterogeneous citation formats and lack standardized evaluation. We present the first comprehensive benchmark and detection framework for hallucinated citations in scientific writing. Our multi-agent verification pipeline decomposes citation checking into claim extraction, evidence retrieval, passage matching, reasoning, and calibrated judgment to assess whether a cited source truly supports its claim. We construct a large-scale human-validated dataset across domains and define unified metrics for citation faithfulness and evidence alignment. Experiments with state-of-the-art LLMs reveal substantial citation errors and show that our framework significantly outperforms prior methods in both accuracy and interpretability. This work provides the first scalable infrastructure for auditing citations in the LLM era and practical tools to improve the trustworthiness of scientific references.
PDF163March 7, 2026