CoRAG: 協調的検索拡張生成
CoRAG: Collaborative Retrieval-Augmented Generation
April 2, 2025
著者: Aashiq Muhamed, Mona Diab, Virginia Smith
cs.AI
要旨
Retrieval-Augmented Generation (RAG) モデルは、特に少ないサンプルでの学習制約下において、知識集約型タスクで優れた性能を発揮します。本論文では、RAGを共同学習環境に拡張したCoRAGフレームワークを提案します。CoRAGでは、クライアントが共同パッセージストアを活用して共有モデルを共同で学習します。CoRAGを評価するため、協調的均質オープンドメイン質問応答のベンチマークであるCRABを導入しました。実験結果から、CoRAGは低リソースシナリオにおいて、パラメトリックな共同学習手法やローカルで学習したRAGモデルを一貫して上回ることが示されました。さらに分析を行った結果、共有ストア内の関連パッセージの重要性、無関係なパッセージを取り入れることの意外な利点、およびハードネガティブが性能に悪影響を及ぼす可能性が明らかになりました。これにより、共同RAGにおける新たな考慮事項が浮かび上がりました。つまり、共同で強化された知識ベースを活用することと、他のクライアントからの有害なパッセージを取り入れるリスクとのトレードオフです。本研究の結果は、CoRAGの実用性を裏付けると同時に、主要な設計課題と今後の研究の有望な方向性を強調しています。
English
Retrieval-Augmented Generation (RAG) models excel in knowledge-intensive
tasks, especially under few-shot learning constraints. We introduce CoRAG, a
framework extending RAG to collaborative settings, where clients jointly train
a shared model using a collaborative passage store. To evaluate CoRAG, we
introduce CRAB, a benchmark for collaborative homogeneous open-domain question
answering. Our experiments demonstrate that CoRAG consistently outperforms both
parametric collaborative learning methods and locally trained RAG models in
low-resource scenarios. Further analysis reveals the critical importance of
relevant passages within the shared store, the surprising benefits of
incorporating irrelevant passages, and the potential for hard negatives to
negatively impact performance. This introduces a novel consideration in
collaborative RAG: the trade-off between leveraging a collectively enriched
knowledge base and the potential risk of incorporating detrimental passages
from other clients. Our findings underscore the viability of CoRAG, while also
highlighting key design challenges and promising avenues for future research.Summary
AI-Generated Summary