Атрибуция неструктурированных данных для контекстно-зависимого суммаризации с длинным контекстом

Аннотация

Крупные языковые модели (LLMs) способны генерировать связные резюме на основе очень длинных контекстов в ответ на пользовательский запрос. Извлечение и корректное цитирование фрагментов доказательств может повысить прозрачность и надежность таких резюме. В то же время LLMs страдают от позиционных предубеждений в отношении того, какую информацию они понимают и на что обращают внимание, что может повлиять на цитирование доказательств. В то время как предыдущие работы были сосредоточены на цитировании доказательств с предопределенными уровнями детализации (например, предложение, абзац, документ и т.д.), мы предлагаем задачу резюмирования с фокусом на длинный контекст и неструктурированное цитирование доказательств. Мы показываем, что существующие системы испытывают трудности с генерацией и корректным цитированием неструктурированных доказательств из своего контекста, и что доказательства часто "теряются в середине". Чтобы помочь в решении этой проблемы, мы создаем набор данных Summaries with Unstructured Evidence Text (SUnsET), синтетический набор данных, сгенерированный с использованием нового доменно-независимого конвейера, который может быть использован в качестве обучающего материала для адаптации LLMs к этой задаче. Мы демонстрируем на 5 LLMs разного размера и 4 наборах данных с различными типами и длинами документов, что LLMs, адаптированные с использованием данных SUnsET, генерируют более релевантные и фактически согласованные доказательства, чем их базовые модели, извлекают доказательства из более разнообразных мест в контексте и способны генерировать более релевантные и согласованные резюме.

English

Large language models (LLMs) are capable of generating coherent summaries from very long contexts given a user query. Extracting and properly citing evidence spans could help improve the transparency and reliability of these summaries. At the same time, LLMs suffer from positional biases in terms of which information they understand and attend to, which could affect evidence citation. Whereas previous work has focused on evidence citation with predefined levels of granularity (e.g. sentence, paragraph, document, etc.), we propose the task of long-context query focused summarization with unstructured evidence citation. We show how existing systems struggle to generate and properly cite unstructured evidence from their context, and that evidence tends to be "lost-in-the-middle". To help mitigate this, we create the Summaries with Unstructured Evidence Text dataset (SUnsET), a synthetic dataset generated using a novel domain-agnostic pipeline which can be used as supervision to adapt LLMs to this task. We demonstrate across 5 LLMs of different sizes and 4 datasets with varying document types and lengths that LLMs adapted with SUnsET data generate more relevant and factually consistent evidence than their base models, extract evidence from more diverse locations in their context, and can generate more relevant and consistent summaries.

Атрибуция неструктурированных данных для контекстно-зависимого суммаризации с длинным контекстом

Unstructured Evidence Attribution for Long Context Query Focused Summarization

Аннотация

Support