ChatPaper.aiChatPaper

CiteGuard: 검색 기반 검증을 통한 LLM의 정확한 인용 출처 표기

CiteGuard: Faithful Citation Attribution for LLMs via Retrieval-Augmented Validation

October 15, 2025
저자: Yee Man Choi, Xuehang Guo, Yi R., Fung, Qingyun Wang
cs.AI

초록

대규모 언어 모델(LLM)은 과학적 글쓰기의 유망한 보조 도구로 부상했습니다. 그러나 생성된 텍스트의 품질과 신뢰성, 특히 인용의 정확성과 신뢰성에 대한 우려가 제기되어 왔습니다. 최근 연구 대부분이 LLM-as-a-Judge와 같은 방법에 의존하고 있지만, LLM-as-a-Judge 단독의 신뢰성 또한 의문시되고 있습니다. 본 연구에서는 인용 평가를 인용 귀속 정합성 문제, 즉 LLM이 생성한 인용이 동일한 텍스트에 대해 인간 저자가 포함할 인용과 일치하는지 평가하는 문제로 재정의합니다. 우리는 인용 검증을 위해 더욱 신뢰할 수 있는 근거를 제공하도록 설계된 검색 인식 에이전트 프레임워크인 CiteGuard를 제안합니다. CiteGuard는 기존 기준선을 12.3% 개선하고 CiteME 벤치마크에서 최대 65.4%의 정확도를 달성하여 인간 수준의 성능(69.7%)에 버금가는 결과를 보여줍니다. 또한 대체 가능하면서도 유효한 인용을 식별할 수 있도록 합니다.
English
Large Language Models (LLMs) have emerged as promising assistants for scientific writing. However, there have been concerns regarding the quality and reliability of the generated text, one of which is the citation accuracy and faithfulness. While most recent work relies on methods such as LLM-as-a-Judge, the reliability of LLM-as-a-Judge alone is also in doubt. In this work, we reframe citation evaluation as a problem of citation attribution alignment, which is assessing whether LLM-generated citations match those a human author would include for the same text. We propose CiteGuard, a retrieval-aware agent framework designed to provide more faithful grounding for citation validation. CiteGuard improves the prior baseline by 12.3%, and achieves up to 65.4% accuracy on the CiteME benchmark, on par with human-level performance (69.7%). It also enables the identification of alternative but valid citations.
PDF72December 2, 2025