CiteGuard: Atribuição Fiel de Citações para LLMs por meio de Validação Aumentada por Recuperação
CiteGuard: Faithful Citation Attribution for LLMs via Retrieval-Augmented Validation
October 15, 2025
Autores: Yee Man Choi, Xuehang Guo, Yi R., Fung, Qingyun Wang
cs.AI
Resumo
Os Grandes Modelos de Linguagem (LLMs) emergiram como assistentes promissores para a redação científica. No entanto, têm havido preocupações quanto à qualidade e confiabilidade do texto gerado, sendo uma delas a precisão e fidedignidade das citações. Embora a maioria dos trabalhos recentes recorra a métodos como o LLM-como-Juiz, a confiabilidade do LLM-como-Juiz por si só também é posta em causa. Neste trabalho, reenquadramos a avaliação de citações como um problema de alinhamento de atribuição de citações, que consiste em avaliar se as citações geradas por LLMs correspondem àquelas que um autor humano incluiria para o mesmo texto. Propomos o CiteGuard, uma arquitetura de agente com consciência de recuperação de informação, concebida para fornecer uma base mais fidedigna para a validação de citações. O CiteGuard melhora a linha de base anterior em 12,3% e atinge até 65,4% de precisão no benchmark CiteME, equiparando-se ao desempenho humano (69,7%). Também permite a identificação de citações alternativas, mas válidas.
English
Large Language Models (LLMs) have emerged as promising assistants for
scientific writing. However, there have been concerns regarding the quality and
reliability of the generated text, one of which is the citation accuracy and
faithfulness. While most recent work relies on methods such as LLM-as-a-Judge,
the reliability of LLM-as-a-Judge alone is also in doubt. In this work, we
reframe citation evaluation as a problem of citation attribution alignment,
which is assessing whether LLM-generated citations match those a human author
would include for the same text. We propose CiteGuard, a retrieval-aware agent
framework designed to provide more faithful grounding for citation validation.
CiteGuard improves the prior baseline by 12.3%, and achieves up to 65.4%
accuracy on the CiteME benchmark, on par with human-level performance (69.7%).
It also enables the identification of alternative but valid citations.