LongCite : Permettre aux LLM de générer des citations détaillées dans les questions-réponses à long contexte
LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA
September 4, 2024
Auteurs: jiajie Zhang, Yushi Bai, Xin Lv, Wanjun Gu, Danqing Liu, Minhao Zou, Shulin Cao, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li
cs.AI
Résumé
Bien que les modèles de langage à grande échelle (LLM) actuels à long contexte aient démontré des capacités impressionnantes pour répondre aux questions des utilisateurs sur la base de textes étendus, le manque de citations dans leurs réponses rend la vérification par l'utilisateur difficile, suscitant des inquiétudes quant à leur fiabilité en raison de leurs éventuelles hallucinations. Dans ce travail, notre objectif est de permettre aux LLM à long contexte de générer des réponses avec des citations au niveau de la phrase, améliorant ainsi leur fidélité et leur vérifiabilité. Nous introduisons d'abord LongBench-Cite, un banc d'essai automatisé pour évaluer les performances des LLM actuels dans la réponse à des questions à long contexte avec des citations (LQAC), révélant un espace considérable pour l'amélioration. À cette fin, nous proposons CoF (Coarse to Fine), un pipeline novateur qui utilise des LLM prêts à l'emploi pour générer automatiquement des instances de questions-réponses à long contexte avec des citations précises au niveau de la phrase, et exploitons ce pipeline pour construire LongCite-45k, un ensemble de données à grande échelle pour LQAC. Enfin, nous entraînons LongCite-8B et LongCite-9B en utilisant l'ensemble de données LongCite-45k, leur permettant avec succès de générer des réponses précises et des citations au niveau de la phrase fines dans une seule sortie. Les résultats de l'évaluation sur LongBench-Cite montrent que nos modèles entraînés atteignent une qualité de citation de pointe, surpassant des modèles propriétaires avancés, y compris GPT-4o.
English
Though current long-context large language models (LLMs) have demonstrated
impressive capacities in answering user questions based on extensive text, the
lack of citations in their responses makes user verification difficult, leading
to concerns about their trustworthiness due to their potential hallucinations.
In this work, we aim to enable long-context LLMs to generate responses with
fine-grained sentence-level citations, improving their faithfulness and
verifiability. We first introduce LongBench-Cite, an automated benchmark for
assessing current LLMs' performance in Long-Context Question Answering with
Citations (LQAC), revealing considerable room for improvement. To this end, we
propose CoF (Coarse to Fine), a novel pipeline that utilizes off-the-shelf LLMs
to automatically generate long-context QA instances with precise sentence-level
citations, and leverage this pipeline to construct LongCite-45k, a large-scale
SFT dataset for LQAC. Finally, we train LongCite-8B and LongCite-9B using the
LongCite-45k dataset, successfully enabling their generation of accurate
responses and fine-grained sentence-level citations in a single output. The
evaluation results on LongBench-Cite show that our trained models achieve
state-of-the-art citation quality, surpassing advanced proprietary models
including GPT-4o.Summary
AI-Generated Summary