LongCite: Permitiendo a LLMs Generar Citas Detalladas en Preguntas y Respuestas de Contexto Extenso
LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA
September 4, 2024
Autores: jiajie Zhang, Yushi Bai, Xin Lv, Wanjun Gu, Danqing Liu, Minhao Zou, Shulin Cao, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li
cs.AI
Resumen
Aunque los modelos de lenguaje de gran contexto (LLMs) actuales han demostrado capacidades impresionantes para responder preguntas de usuarios basadas en textos extensos, la falta de citas en sus respuestas dificulta la verificación por parte del usuario, lo que genera preocupaciones sobre su confiabilidad debido a posibles alucinaciones. En este trabajo, nuestro objetivo es habilitar a los LLMs de gran contexto para generar respuestas con citas a nivel de oración detalladas, mejorando su fidelidad y verificabilidad. En primer lugar, presentamos LongBench-Cite, un banco de pruebas automatizado para evaluar el rendimiento de los LLMs actuales en la respuesta a preguntas de largo contexto con citas (LQAC), revelando un considerable margen de mejora. Con este fin, proponemos CoF (De Grueso a Fino), un nuevo proceso que utiliza LLMs listos para usar para generar automáticamente instancias de preguntas y respuestas de largo contexto con citas precisas a nivel de oración, y aprovechamos este proceso para construir LongCite-45k, un conjunto de datos a gran escala para LQAC. Finalmente, entrenamos LongCite-8B y LongCite-9B utilizando el conjunto de datos LongCite-45k, lo que permite que generen respuestas precisas y citas detalladas a nivel de oración en una sola salida. Los resultados de evaluación en LongBench-Cite muestran que nuestros modelos entrenados logran una calidad de citas de vanguardia, superando a modelos propietarios avanzados, incluido GPT-4o.
English
Though current long-context large language models (LLMs) have demonstrated
impressive capacities in answering user questions based on extensive text, the
lack of citations in their responses makes user verification difficult, leading
to concerns about their trustworthiness due to their potential hallucinations.
In this work, we aim to enable long-context LLMs to generate responses with
fine-grained sentence-level citations, improving their faithfulness and
verifiability. We first introduce LongBench-Cite, an automated benchmark for
assessing current LLMs' performance in Long-Context Question Answering with
Citations (LQAC), revealing considerable room for improvement. To this end, we
propose CoF (Coarse to Fine), a novel pipeline that utilizes off-the-shelf LLMs
to automatically generate long-context QA instances with precise sentence-level
citations, and leverage this pipeline to construct LongCite-45k, a large-scale
SFT dataset for LQAC. Finally, we train LongCite-8B and LongCite-9B using the
LongCite-45k dataset, successfully enabling their generation of accurate
responses and fine-grained sentence-level citations in a single output. The
evaluation results on LongBench-Cite show that our trained models achieve
state-of-the-art citation quality, surpassing advanced proprietary models
including GPT-4o.Summary
AI-Generated Summary