CiteGuard: Достоверная атрибуция цитирований для больших языковых моделей с помощью поисково-расширенной валидации
CiteGuard: Faithful Citation Attribution for LLMs via Retrieval-Augmented Validation
October 15, 2025
Авторы: Yee Man Choi, Xuehang Guo, Yi R., Fung, Qingyun Wang
cs.AI
Аннотация
Крупные языковые модели (LLM) стали перспективными помощниками в научном письме. Однако возникают опасения относительно качества и надежности генерируемого текста, в частности, точности и достоверности цитирования. В то время как большинство недавних работ полагаются на методы типа «LLM-как-эксперт», надежность такого подхода сама по себе вызывает сомнения. В данной работе мы переосмысливаем оценку цитирования как проблему соответствия атрибуции цитат, то есть проверяем, совпадают ли цитаты, сгенерированные LLM, с теми, которые включил бы автор-человек для того же текста. Мы предлагаем **CiteGuard** — фреймворк агента с учетом поиска, предназначенный для обеспечения более достоверной основы для проверки цитирования. CiteGuard улучшает предыдущий базовый уровень на 12,3% и достигает точности до 65,4% на бенчмарке CiteME, что сопоставимо с уровнем человека (69,7%). Он также позволяет идентифицировать альтернативные, но допустимые цитаты.
English
Large Language Models (LLMs) have emerged as promising assistants for
scientific writing. However, there have been concerns regarding the quality and
reliability of the generated text, one of which is the citation accuracy and
faithfulness. While most recent work relies on methods such as LLM-as-a-Judge,
the reliability of LLM-as-a-Judge alone is also in doubt. In this work, we
reframe citation evaluation as a problem of citation attribution alignment,
which is assessing whether LLM-generated citations match those a human author
would include for the same text. We propose CiteGuard, a retrieval-aware agent
framework designed to provide more faithful grounding for citation validation.
CiteGuard improves the prior baseline by 12.3%, and achieves up to 65.4%
accuracy on the CiteME benchmark, on par with human-level performance (69.7%).
It also enables the identification of alternative but valid citations.