Self-RAG: 自己反省を通じた検索、生成、批評の学習
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection
October 17, 2023
著者: Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, Hannaneh Hajishirzi
cs.AI
要旨
大規模言語モデル(LLM)はその驚異的な能力にもかかわらず、パラメトリックな知識にのみ依存しているため、事実誤認を含む応答を生成することがしばしばあります。Retrieval-Augmented Generation(RAG)は、関連する知識を検索して言語モデルを拡張するアドホックなアプローチであり、このような問題を軽減します。しかし、検索が必要かどうかや、検索された文章が関連しているかどうかを問わず、固定数の文章を無差別に取得して組み込むことは、言語モデルの汎用性を低下させたり、役に立たない応答生成につながる可能性があります。本論文では、検索と自己反映を通じて言語モデルの品質と事実性を向上させる新しいフレームワークであるSelf-Reflective Retrieval-Augmented Generation(Self-RAG)を提案します。このフレームワークでは、単一の任意の言語モデルを訓練し、オンデマンドで文章を適応的に検索し、検索された文章と自身の生成内容を反映するための特別なトークン(反映トークン)を使用します。反映トークンを生成することで、推論段階で言語モデルを制御可能にし、多様なタスク要件に応じてその動作を調整することができます。実験結果は、Self-RAG(7Bおよび13Bパラメータ)が、多様なタスクにおいて最先端のLLMや検索拡張モデルを大幅に上回ることを示しています。具体的には、Self-RAGはOpen-domain QA、推論、事実検証タスクにおいてChatGPTや検索拡張されたLlama2-chatを上回り、長文生成における事実性と引用精度の向上においてもこれらのモデルに対して顕著な改善を示しています。
English
Despite their remarkable capabilities, large language models (LLMs) often
produce responses containing factual inaccuracies due to their sole reliance on
the parametric knowledge they encapsulate. Retrieval-Augmented Generation
(RAG), an ad hoc approach that augments LMs with retrieval of relevant
knowledge, decreases such issues. However, indiscriminately retrieving and
incorporating a fixed number of retrieved passages, regardless of whether
retrieval is necessary, or passages are relevant, diminishes LM versatility or
can lead to unhelpful response generation. We introduce a new framework called
Self-Reflective Retrieval-Augmented Generation (Self-RAG) that enhances an LM's
quality and factuality through retrieval and self-reflection. Our framework
trains a single arbitrary LM that adaptively retrieves passages on-demand, and
generates and reflects on retrieved passages and its own generations using
special tokens, called reflection tokens. Generating reflection tokens makes
the LM controllable during the inference phase, enabling it to tailor its
behavior to diverse task requirements. Experiments show that Self-RAG (7B and
13B parameters) significantly outperforms state-of-the-art LLMs and
retrieval-augmented models on a diverse set of tasks. Specifically, Self-RAG
outperforms ChatGPT and retrieval-augmented Llama2-chat on Open-domain QA,
reasoning and fact verification tasks, and it shows significant gains in
improving factuality and citation accuracy for long-form generations relative
to these models.