ChatPaper.aiChatPaper

LongCite: Permitindo que LLMs Gerem Citações Detalhadas em QA de Contexto Longo

LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA

September 4, 2024
Autores: jiajie Zhang, Yushi Bai, Xin Lv, Wanjun Gu, Danqing Liu, Minhao Zou, Shulin Cao, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li
cs.AI

Resumo

Embora os atuais modelos de linguagem de longo contexto (LLMs) tenham demonstrado capacidades impressionantes ao responder perguntas dos usuários com base em extenso texto, a falta de citações em suas respostas dificulta a verificação pelo usuário, levando a preocupações sobre sua confiabilidade devido a possíveis alucinações. Neste trabalho, temos como objetivo capacitar os LLMs de longo contexto a gerar respostas com citações detalhadas ao nível de sentença, melhorando sua fidelidade e verificabilidade. Primeiramente, apresentamos o LongBench-Cite, um benchmark automatizado para avaliar o desempenho dos atuais LLMs em Respostas a Perguntas de Longo Contexto com Citações (LQAC), revelando um espaço considerável para melhorias. Para isso, propomos o CoF (Coarse to Fine), um novo pipeline que utiliza LLMs prontos para gerar automaticamente instâncias de QA de longo contexto com citações precisas ao nível de sentença, e aproveitamos esse pipeline para construir o LongCite-45k, um conjunto de dados de grande escala para LQAC. Por fim, treinamos o LongCite-8B e o LongCite-9B usando o conjunto de dados LongCite-45k, possibilitando com sucesso a geração de respostas precisas e citações detalhadas ao nível de sentença em uma única saída. Os resultados de avaliação no LongBench-Cite mostram que nossos modelos treinados alcançam qualidade de citação de ponta, superando modelos proprietários avançados, incluindo o GPT-4o.
English
Though current long-context large language models (LLMs) have demonstrated impressive capacities in answering user questions based on extensive text, the lack of citations in their responses makes user verification difficult, leading to concerns about their trustworthiness due to their potential hallucinations. In this work, we aim to enable long-context LLMs to generate responses with fine-grained sentence-level citations, improving their faithfulness and verifiability. We first introduce LongBench-Cite, an automated benchmark for assessing current LLMs' performance in Long-Context Question Answering with Citations (LQAC), revealing considerable room for improvement. To this end, we propose CoF (Coarse to Fine), a novel pipeline that utilizes off-the-shelf LLMs to automatically generate long-context QA instances with precise sentence-level citations, and leverage this pipeline to construct LongCite-45k, a large-scale SFT dataset for LQAC. Finally, we train LongCite-8B and LongCite-9B using the LongCite-45k dataset, successfully enabling their generation of accurate responses and fine-grained sentence-level citations in a single output. The evaluation results on LongBench-Cite show that our trained models achieve state-of-the-art citation quality, surpassing advanced proprietary models including GPT-4o.
PDF483November 16, 2024