LongCite: Het mogelijk maken voor LLM's om gedetailleerde citaties te genereren in lange-context vraag-antwoordsystemen
LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA
September 4, 2024
Auteurs: jiajie Zhang, Yushi Bai, Xin Lv, Wanjun Gu, Danqing Liu, Minhao Zou, Shulin Cao, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li
cs.AI
Samenvatting
Hoewel huidige large language models (LLM's) met lange context indrukwekkende capaciteiten hebben getoond in het beantwoorden van gebruikersvragen op basis van uitgebreide teksten, maakt het ontbreken van citaten in hun antwoorden het voor gebruikers moeilijk om deze te verifiëren. Dit leidt tot zorgen over hun betrouwbaarheid vanwege hun potentiële hallucinaties. In dit werk streven we ernaar om LLM's met lange context in staat te stellen reacties te genereren met fijnmazige, op zinsniveau gemaakte citaten, waardoor hun geloofwaardigheid en verifieerbaarheid worden verbeterd. We introduceren eerst LongBench-Cite, een geautomatiseerde benchmark voor het beoordelen van de prestaties van huidige LLM's in Long-Context Question Answering with Citations (LQAC), wat aanzienlijke ruimte voor verbetering aan het licht brengt. Hiertoe stellen we CoF (Coarse to Fine) voor, een innovatieve pijplijn die gebruikmaakt van kant-en-klare LLM's om automatisch QA-instanties met lange context te genereren met precieze citaten op zinsniveau, en gebruiken we deze pijplijn om LongCite-45k te construeren, een grootschalig SFT-dataset voor LQAC. Ten slotte trainen we LongCite-8B en LongCite-9B met behulp van de LongCite-45k dataset, waardoor ze succesvol in staat zijn om nauwkeurige antwoorden en fijnmazige citaten op zinsniveau te genereren in één uitvoer. De evaluatieresultaten op LongBench-Cite tonen aan dat onze getrainde modellen state-of-the-art citatenkwaliteit bereiken, en daarmee geavanceerde propriëtaire modellen, waaronder GPT-4o, overtreffen.
English
Though current long-context large language models (LLMs) have demonstrated
impressive capacities in answering user questions based on extensive text, the
lack of citations in their responses makes user verification difficult, leading
to concerns about their trustworthiness due to their potential hallucinations.
In this work, we aim to enable long-context LLMs to generate responses with
fine-grained sentence-level citations, improving their faithfulness and
verifiability. We first introduce LongBench-Cite, an automated benchmark for
assessing current LLMs' performance in Long-Context Question Answering with
Citations (LQAC), revealing considerable room for improvement. To this end, we
propose CoF (Coarse to Fine), a novel pipeline that utilizes off-the-shelf LLMs
to automatically generate long-context QA instances with precise sentence-level
citations, and leverage this pipeline to construct LongCite-45k, a large-scale
SFT dataset for LQAC. Finally, we train LongCite-8B and LongCite-9B using the
LongCite-45k dataset, successfully enabling their generation of accurate
responses and fine-grained sentence-level citations in a single output. The
evaluation results on LongBench-Cite show that our trained models achieve
state-of-the-art citation quality, surpassing advanced proprietary models
including GPT-4o.Summary
AI-Generated Summary