ChatPaper.aiChatPaper

LongCite: Ermöglichen von LLMs zur Generierung feingranularer Zitate in Langkontext-Fragen-Antworten.

LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA

September 4, 2024
Autoren: jiajie Zhang, Yushi Bai, Xin Lv, Wanjun Gu, Danqing Liu, Minhao Zou, Shulin Cao, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li
cs.AI

Zusammenfassung

Obwohl aktuelle großkontextige Sprachmodelle (LLMs) beeindruckende Fähigkeiten bei der Beantwortung von Benutzerfragen auf der Grundlage umfangreicher Texte gezeigt haben, macht das Fehlen von Zitaten in ihren Antworten die Benutzerüberprüfung schwierig, was zu Bedenken hinsichtlich ihrer Vertrauenswürdigkeit aufgrund potenzieller Halluzinationen führt. In dieser Arbeit zielen wir darauf ab, großkontextigen LLMs zu ermöglichen, Antworten mit feingliedrigen Zitaten auf Satzebene zu generieren, um ihre Treue und Überprüfbarkeit zu verbessern. Zunächst stellen wir LongBench-Cite vor, einen automatisierten Benchmark zur Bewertung der Leistung aktueller LLMs im Langkontext-Fragenbeantworten mit Zitaten (LQAC), der erhebliches Verbesserungspotenzial aufzeigt. Zu diesem Zweck schlagen wir CoF (Coarse to Fine) vor, eine neuartige Pipeline, die handelsübliche LLMs nutzt, um automatisch Langkontext-Frage-Antwort-Instanzen mit präzisen Zitaten auf Satzebene zu generieren, und nutzen diese Pipeline, um LongCite-45k, einen umfangreichen SFT-Datensatz für LQAC, zu erstellen. Schließlich trainieren wir LongCite-8B und LongCite-9B mit dem LongCite-45k-Datensatz, was es ihnen erfolgreich ermöglicht, genaue Antworten und feingliedrige Zitate auf Satzebene in einer einzigen Ausgabe zu generieren. Die Evaluierungsergebnisse auf LongBench-Cite zeigen, dass unsere trainierten Modelle eine Spitzenqualität bei den Zitaten erreichen und fortschrittliche proprietäre Modelle wie GPT-4o übertreffen.
English
Though current long-context large language models (LLMs) have demonstrated impressive capacities in answering user questions based on extensive text, the lack of citations in their responses makes user verification difficult, leading to concerns about their trustworthiness due to their potential hallucinations. In this work, we aim to enable long-context LLMs to generate responses with fine-grained sentence-level citations, improving their faithfulness and verifiability. We first introduce LongBench-Cite, an automated benchmark for assessing current LLMs' performance in Long-Context Question Answering with Citations (LQAC), revealing considerable room for improvement. To this end, we propose CoF (Coarse to Fine), a novel pipeline that utilizes off-the-shelf LLMs to automatically generate long-context QA instances with precise sentence-level citations, and leverage this pipeline to construct LongCite-45k, a large-scale SFT dataset for LQAC. Finally, we train LongCite-8B and LongCite-9B using the LongCite-45k dataset, successfully enabling their generation of accurate responses and fine-grained sentence-level citations in a single output. The evaluation results on LongBench-Cite show that our trained models achieve state-of-the-art citation quality, surpassing advanced proprietary models including GPT-4o.

Summary

AI-Generated Summary

PDF483November 16, 2024