Fonte ou Não Aconteceu: Um Arcabouço Multiagente para Detecção de Alucinações em Citações

Resumo

Modelos de linguagem de grande escala são cada vez mais utilizados na redação científica, mas podem fabricar referências com formato de citação que parecem plausíveis, porém falham na verificação bibliográfica. Detectores existentes frequentemente reduzem a verificação a decisões binárias de encontrado/não encontrado e dependem de análise sintática frágil ou recuperação incompleta, oferecendo pouco sinal em nível de campo para auditores. Reenquadramos a detecção de alucinação de citação como um julgamento em nível de campo alinhado a uma taxonomia e introduzimos uma taxonomia de 12 códigos abrangendo citações Reais, Potenciais e Alucinadas. Com base nessa taxonomia, construímos o CiteTracer, um detector multiagente em cascata que extrai citações estruturadas de PDF e BibTeX, recupera evidências por meio de consulta em cache, busca de URL, conectores acadêmicos e pesquisa na web, aplica correspondência determinística de campos e encaminha casos ambíguos para julgadores especialistas em classes. Disponibilizamos um benchmark de 2.450 citações sintéticas construídas a partir de sementes reais com mutações controladas de LLM, combinadas com 957 citações fabricadas do mundo real extraídas do ICLR 2026 e de submissões rejeitadas na mesa de uma conferência anônima. O CiteTracer atinge 97,1% de acurácia no benchmark sintético, com pontuações F1 por classe de 97,0, 95,8 e 98,5 para Real, Potencial e Alucinada, respectivamente, e detecta 97,1% das fabricações no conjunto do mundo real sem se abster. Código: https://github.com/aaFrostnova/CiteTracer.

English

Large language models are increasingly used in scientific writing, yet they can fabricate citation-shaped references that appear plausible but fail bibliographic verification. Existing detectors often reduce verification to binary found/not-found decisions and rely on brittle parsing or incomplete retrieval, offering little field-level signal to auditors. We reframe citation hallucination detection as taxonomy-aligned field-level adjudication and introduce a 12-code taxonomy spanning Real, Potential, and Hallucinated citations. Based on this taxonomy, we build CiteTracer, a cascading multi-agent detector that extracts structured citations from PDF and BibTeX, retrieves evidence through cache lookup, URL fetch, scholar connectors, and web search, applies deterministic field matching, and routes ambiguous cases to class-specialist judgers. We release a benchmark of 2,450 synthetic citations built from real seeds with controlled LLM mutations, paired with 957 real-world fabricated citations drawn from ICLR 2026 and an anonymous conference desk-rejected submissions. CiteTracer reaches 97.1% accuracy on the synthetic benchmark, with class-level F1 scores of 97.0, 95.8, and 98.5 for Real, Potential, and Hallucinated, respectively, and detects 97.1% of fabrications on the real-world set without abstaining. Code: https://github.com/aaFrostnova/CiteTracer.