ChatPaper.aiChatPaper

LongCite: Abilitare i LLM a Generare Citazioni Dettagliate in QA con Contesto Lungo

LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA

September 4, 2024
Autori: jiajie Zhang, Yushi Bai, Xin Lv, Wanjun Gu, Danqing Liu, Minhao Zou, Shulin Cao, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li
cs.AI

Abstract

Sebbene attuali modelli linguistici a lungo contesto (LLM) abbiano dimostrato capacità impressionanti nel rispondere alle domande degli utenti basandosi su testi estesi, la mancanza di citazioni nelle loro risposte rende difficile la verifica da parte dell'utente, suscitando preoccupazioni sulla loro affidabilità a causa delle potenziali allucinazioni. In questo lavoro, ci proponiamo di abilitare i LLM a lungo contesto a generare risposte con citazioni a livello di singola frase, migliorandone la fedeltà e verificabilità. Introduciamo innanzitutto LongBench-Cite, un benchmark automatizzato per valutare le prestazioni attuali dei LLM nel Question Answering a Lungo Contesto con Citazioni (LQAC), rivelando un considerevole margine di miglioramento. A tal fine, proponiamo CoF (Coarse to Fine), un nuovo processo che utilizza LLM pronti all'uso per generare automaticamente istanze di QA a lungo contesto con citazioni precise a livello di singola frase, e sfruttiamo questo processo per creare LongCite-45k, un dataset SFT su larga scala per LQAC. Infine, addestriamo LongCite-8B e LongCite-9B utilizzando il dataset LongCite-45k, abilitandoli con successo a generare risposte accurate e citazioni a livello di singola frase dettagliate in un'unica uscita. I risultati della valutazione su LongBench-Cite mostrano che i nostri modelli addestrati raggiungono una qualità delle citazioni all'avanguardia, superando modelli proprietari avanzati tra cui GPT-4o.
English
Though current long-context large language models (LLMs) have demonstrated impressive capacities in answering user questions based on extensive text, the lack of citations in their responses makes user verification difficult, leading to concerns about their trustworthiness due to their potential hallucinations. In this work, we aim to enable long-context LLMs to generate responses with fine-grained sentence-level citations, improving their faithfulness and verifiability. We first introduce LongBench-Cite, an automated benchmark for assessing current LLMs' performance in Long-Context Question Answering with Citations (LQAC), revealing considerable room for improvement. To this end, we propose CoF (Coarse to Fine), a novel pipeline that utilizes off-the-shelf LLMs to automatically generate long-context QA instances with precise sentence-level citations, and leverage this pipeline to construct LongCite-45k, a large-scale SFT dataset for LQAC. Finally, we train LongCite-8B and LongCite-9B using the LongCite-45k dataset, successfully enabling their generation of accurate responses and fine-grained sentence-level citations in a single output. The evaluation results on LongBench-Cite show that our trained models achieve state-of-the-art citation quality, surpassing advanced proprietary models including GPT-4o.
PDF473November 16, 2024