LongCite: Обеспечение возможности LLMs генерировать детализированные цитаты в долгосрочном контексте QA
LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA
September 4, 2024
Авторы: jiajie Zhang, Yushi Bai, Xin Lv, Wanjun Gu, Danqing Liu, Minhao Zou, Shulin Cao, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li
cs.AI
Аннотация
Хотя текущие модели языка с длинным контекстом (LLM) продемонстрировали впечатляющие возможности в ответах на вопросы пользователей на основе обширного текста, отсутствие цитирования в их ответах затрудняет проверку пользователем, вызывая опасения относительно их надежности из-за потенциальных галлюцинаций. В данной работе мы стремимся обеспечить возможность длинным моделям с контекстом генерировать ответы с детализированными цитатами на уровне предложения, улучшая их достоверность и проверяемость. Сначала мы представляем LongBench-Cite, автоматизированный бенчмарк для оценки производительности текущих LLM в долгосрочном вопросно-ответном контексте с цитатами (LQAC), выявляя значительный потенциал для улучшения. Для этого мы предлагаем CoF (Coarse to Fine), новый конвейер, который использует готовые LLM для автоматической генерации примеров долгосрочного вопросно-ответного контекста с точными цитатами на уровне предложения, и используем этот конвейер для создания LongCite-45k, крупного SFT набора данных для LQAC. Наконец, мы обучаем LongCite-8B и LongCite-9B, используя набор данных LongCite-45k, успешно обеспечивая их способность генерировать точные ответы и детализированные цитаты на уровне предложения в одном выводе. Результаты оценки на LongBench-Cite показывают, что наши обученные модели достигают качества цитирования на уровне передовых собственных моделей, включая GPT-4o.
English
Though current long-context large language models (LLMs) have demonstrated
impressive capacities in answering user questions based on extensive text, the
lack of citations in their responses makes user verification difficult, leading
to concerns about their trustworthiness due to their potential hallucinations.
In this work, we aim to enable long-context LLMs to generate responses with
fine-grained sentence-level citations, improving their faithfulness and
verifiability. We first introduce LongBench-Cite, an automated benchmark for
assessing current LLMs' performance in Long-Context Question Answering with
Citations (LQAC), revealing considerable room for improvement. To this end, we
propose CoF (Coarse to Fine), a novel pipeline that utilizes off-the-shelf LLMs
to automatically generate long-context QA instances with precise sentence-level
citations, and leverage this pipeline to construct LongCite-45k, a large-scale
SFT dataset for LQAC. Finally, we train LongCite-8B and LongCite-9B using the
LongCite-45k dataset, successfully enabling their generation of accurate
responses and fine-grained sentence-level citations in a single output. The
evaluation results on LongBench-Cite show that our trained models achieve
state-of-the-art citation quality, surpassing advanced proprietary models
including GPT-4o.Summary
AI-Generated Summary