SelfCite: Самонадзорное выравнивание для контекстной атрибуции в больших языковых моделях
SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models
February 13, 2025
Авторы: Yung-Sung Chuang, Benjamin Cohen-Wang, Shannon Zejiang Shen, Zhaofeng Wu, Hu Xu, Xi Victoria Lin, James Glass, Shang-Wen Li, Wen-tau Yih
cs.AI
Аннотация
Мы представляем SelfCite, новый метод самонадзора, который выравнивает LLM для генерации высококачественных, детализированных цитат на уровне предложения для высказываний в их сгенерированных ответах. Вместо того чтобы полагаться только на дорогостоящие и трудоемкие аннотации, SelfCite использует сигнал вознаграждения, предоставляемый самим LLM через абляцию контекста: если цитата необходима, удаление процитированного текста из контекста должно предотвратить тот же ответ; если достаточно, сохранение только процитированного текста должно сохранить тот же ответ. Это вознаграждение может направлять стратегию выбора лучшего из N во время вывода для значительного улучшения качества цитирования, а также использоваться в оптимизации предпочтений для прямой настройки моделей на генерацию лучших цитат. Эффективность SelfCite продемонстрирована увеличением значения F1 цитирования до 5,3 пункта на бенчмарке LongBench-Cite по пяти задачам длинноформатного вопросно-ответного моделирования.
English
We introduce SelfCite, a novel self-supervised approach that aligns LLMs to
generate high-quality, fine-grained, sentence-level citations for the
statements in their generated responses. Instead of only relying on costly and
labor-intensive annotations, SelfCite leverages a reward signal provided by the
LLM itself through context ablation: If a citation is necessary, removing the
cited text from the context should prevent the same response; if sufficient,
retaining the cited text alone should preserve the same response. This reward
can guide the inference-time best-of-N sampling strategy to improve citation
quality significantly, as well as be used in preference optimization to
directly fine-tune the models for generating better citations. The
effectiveness of SelfCite is demonstrated by increasing citation F1 up to 5.3
points on the LongBench-Cite benchmark across five long-form question answering
tasks.Summary
AI-Generated Summary