Self-RAG: Обучение извлечению, генерации и критике через саморефлексию
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection
October 17, 2023
Авторы: Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, Hannaneh Hajishirzi
cs.AI
Аннотация
Несмотря на их впечатляющие возможности, крупные языковые модели (LLM) часто выдают ответы, содержащие фактические ошибки, из-за их исключительной зависимости от параметрического знания, которое они инкапсулируют. Подход, называемый Retrieval-Augmented Generation (RAG), который дополняет языковые модели извлечением релевантных знаний, уменьшает такие проблемы. Однако без разбора извлечение и включение фиксированного числа найденных фрагментов, независимо от того, необходимо ли извлечение или релевантны ли фрагменты, снижает универсальность языковой модели или может привести к генерации бесполезных ответов. Мы представляем новую структуру под названием Self-Reflective Retrieval-Augmented Generation (Self-RAG), которая повышает качество и фактическую точность языковой модели за счет извлечения и саморефлексии. Наша структура обучает одну произвольную языковую модель, которая адаптивно извлекает фрагменты по запросу, а также генерирует и анализирует извлеченные фрагменты и свои собственные генерации с использованием специальных токенов, называемых токенами рефлексии. Генерация токенов рефлексии делает языковую модель управляемой на этапе вывода, позволяя ей адаптировать свое поведение к различным требованиям задач. Эксперименты показывают, что Self-RAG (с 7 и 13 миллиардами параметров) значительно превосходит современные крупные языковые модели и модели, дополненные извлечением, на разнообразных задачах. В частности, Self-RAG превосходит ChatGPT и Llama2-chat, дополненную извлечением, в задачах открытого домена QA, рассуждения и проверки фактов, а также демонстрирует значительные улучшения в повышении фактической точности и точности цитирования для длинных генераций по сравнению с этими моделями.
English
Despite their remarkable capabilities, large language models (LLMs) often
produce responses containing factual inaccuracies due to their sole reliance on
the parametric knowledge they encapsulate. Retrieval-Augmented Generation
(RAG), an ad hoc approach that augments LMs with retrieval of relevant
knowledge, decreases such issues. However, indiscriminately retrieving and
incorporating a fixed number of retrieved passages, regardless of whether
retrieval is necessary, or passages are relevant, diminishes LM versatility or
can lead to unhelpful response generation. We introduce a new framework called
Self-Reflective Retrieval-Augmented Generation (Self-RAG) that enhances an LM's
quality and factuality through retrieval and self-reflection. Our framework
trains a single arbitrary LM that adaptively retrieves passages on-demand, and
generates and reflects on retrieved passages and its own generations using
special tokens, called reflection tokens. Generating reflection tokens makes
the LM controllable during the inference phase, enabling it to tailor its
behavior to diverse task requirements. Experiments show that Self-RAG (7B and
13B parameters) significantly outperforms state-of-the-art LLMs and
retrieval-augmented models on a diverse set of tasks. Specifically, Self-RAG
outperforms ChatGPT and retrieval-augmented Llama2-chat on Open-domain QA,
reasoning and fact verification tasks, and it shows significant gains in
improving factuality and citation accuracy for long-form generations relative
to these models.