大規模言語モデルに対する信頼性のある検索増強生成に向けて:サーベイ
Towards Trustworthy Retrieval Augmented Generation for Large Language Models: A Survey
February 8, 2025
著者: Bo Ni, Zheyuan Liu, Leyao Wang, Yongjia Lei, Yuying Zhao, Xueqi Cheng, Qingkai Zeng, Luna Dong, Yinglong Xia, Krishnaram Kenthapadi, Ryan Rossi, Franck Dernoncourt, Md Mehrab Tanjim, Nesreen Ahmed, Xiaorui Liu, Wenqi Fan, Erik Blasch, Yu Wang, Meng Jiang, Tyler Derr
cs.AI
要旨
Retrieval-Augmented Generation(RAG)は、人工知能生成コンテンツ(AIGC)の課題に対処するために設計された先進的な技術です。コンテンツ生成にコンテキスト検索を統合することで、RAGは信頼性の高い最新の外部知識を提供し、幻覚を減らし、幅広いタスクで関連するコンテキストを確保します。ただし、RAGの成功と潜在能力にも関わらず、最近の研究によると、RAGパラダイムは新たなリスクをもたらすことも示されています。これには、堅牢性の問題、プライバシー懸念、敵対的攻撃、および説明責任の問題が含まれます。これらのリスクに対処することは、RAGシステムの将来の応用にとって重要であり、その信頼性に直接影響を与えます。RAG方法の信頼性を向上させるためのさまざまな手法が開発されていますが、このトピックの研究に統一された視点と枠組みが不足しています。したがって、本論文では、信頼性のあるRAGシステムを開発するための包括的なロードマップを提供することで、このギャップに取り組むことを目指します。私たちは、信頼性、プライバシー、安全性、公平性、説明可能性、および説明責任という5つの主要な視点を中心に議論を展開します。各視点について、一般的な枠組みと分類を提示し、現在の課題を理解し、既存の解決策を評価し、将来有望な研究方向を特定するための構造化されたアプローチを提供します。広範な採用とイノベーションを促進するために、信頼性のあるRAGシステムが重要な影響を与える下流の応用例も紹介します。
English
Retrieval-Augmented Generation (RAG) is an advanced technique designed to
address the challenges of Artificial Intelligence-Generated Content (AIGC). By
integrating context retrieval into content generation, RAG provides reliable
and up-to-date external knowledge, reduces hallucinations, and ensures relevant
context across a wide range of tasks. However, despite RAG's success and
potential, recent studies have shown that the RAG paradigm also introduces new
risks, including robustness issues, privacy concerns, adversarial attacks, and
accountability issues. Addressing these risks is critical for future
applications of RAG systems, as they directly impact their trustworthiness.
Although various methods have been developed to improve the trustworthiness of
RAG methods, there is a lack of a unified perspective and framework for
research in this topic. Thus, in this paper, we aim to address this gap by
providing a comprehensive roadmap for developing trustworthy RAG systems. We
place our discussion around five key perspectives: reliability, privacy,
safety, fairness, explainability, and accountability. For each perspective, we
present a general framework and taxonomy, offering a structured approach to
understanding the current challenges, evaluating existing solutions, and
identifying promising future research directions. To encourage broader adoption
and innovation, we also highlight the downstream applications where trustworthy
RAG systems have a significant impact.Summary
AI-Generated Summary