LongCite: Het mogelijk maken voor LLM's om gedetailleerde citaties te genereren in lange-context vraag-antwoordsystemen

Samenvatting

Hoewel huidige large language models (LLM's) met lange context indrukwekkende capaciteiten hebben getoond in het beantwoorden van gebruikersvragen op basis van uitgebreide teksten, maakt het ontbreken van citaten in hun antwoorden het voor gebruikers moeilijk om deze te verifiëren. Dit leidt tot zorgen over hun betrouwbaarheid vanwege hun potentiële hallucinaties. In dit werk streven we ernaar om LLM's met lange context in staat te stellen reacties te genereren met fijnmazige, op zinsniveau gemaakte citaten, waardoor hun geloofwaardigheid en verifieerbaarheid worden verbeterd. We introduceren eerst LongBench-Cite, een geautomatiseerde benchmark voor het beoordelen van de prestaties van huidige LLM's in Long-Context Question Answering with Citations (LQAC), wat aanzienlijke ruimte voor verbetering aan het licht brengt. Hiertoe stellen we CoF (Coarse to Fine) voor, een innovatieve pijplijn die gebruikmaakt van kant-en-klare LLM's om automatisch QA-instanties met lange context te genereren met precieze citaten op zinsniveau, en gebruiken we deze pijplijn om LongCite-45k te construeren, een grootschalig SFT-dataset voor LQAC. Ten slotte trainen we LongCite-8B en LongCite-9B met behulp van de LongCite-45k dataset, waardoor ze succesvol in staat zijn om nauwkeurige antwoorden en fijnmazige citaten op zinsniveau te genereren in één uitvoer. De evaluatieresultaten op LongBench-Cite tonen aan dat onze getrainde modellen state-of-the-art citatenkwaliteit bereiken, en daarmee geavanceerde propriëtaire modellen, waaronder GPT-4o, overtreffen.

English

Though current long-context large language models (LLMs) have demonstrated impressive capacities in answering user questions based on extensive text, the lack of citations in their responses makes user verification difficult, leading to concerns about their trustworthiness due to their potential hallucinations. In this work, we aim to enable long-context LLMs to generate responses with fine-grained sentence-level citations, improving their faithfulness and verifiability. We first introduce LongBench-Cite, an automated benchmark for assessing current LLMs' performance in Long-Context Question Answering with Citations (LQAC), revealing considerable room for improvement. To this end, we propose CoF (Coarse to Fine), a novel pipeline that utilizes off-the-shelf LLMs to automatically generate long-context QA instances with precise sentence-level citations, and leverage this pipeline to construct LongCite-45k, a large-scale SFT dataset for LQAC. Finally, we train LongCite-8B and LongCite-9B using the LongCite-45k dataset, successfully enabling their generation of accurate responses and fine-grained sentence-level citations in a single output. The evaluation results on LongBench-Cite show that our trained models achieve state-of-the-art citation quality, surpassing advanced proprietary models including GPT-4o.

LongCite: Het mogelijk maken voor LLM's om gedetailleerde citaties te genereren in lange-context vraag-antwoordsystemen

LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA

Samenvatting

Summary

Support

Support