CoRAG: Collaboratieve Retrieval-Augmented Generation
CoRAG: Collaborative Retrieval-Augmented Generation
April 2, 2025
Auteurs: Aashiq Muhamed, Mona Diab, Virginia Smith
cs.AI
Samenvatting
Retrieval-Augmented Generation (RAG)-modellen blinken uit in kennisintensieve taken, vooral onder beperkingen van few-shot learning. Wij introduceren CoRAG, een raamwerk dat RAG uitbreidt naar collaboratieve settings, waarbij clients gezamenlijk een gedeeld model trainen met behulp van een collaboratieve passagestore. Om CoRAG te evalueren, introduceren we CRAB, een benchmark voor collaboratieve homogene open-domein vraagbeantwoording. Onze experimenten tonen aan dat CoRAG consistent beter presteert dan zowel parametrische collaboratieve leermethoden als lokaal getrainde RAG-modellen in scenario’s met beperkte middelen. Verdere analyse onthult het cruciale belang van relevante passages binnen de gedeelde store, de verrassende voordelen van het opnemen van irrelevante passages, en het potentieel van hard negatives om de prestaties negatief te beïnvloeden. Dit introduceert een nieuwe overweging in collaboratieve RAG: de afweging tussen het benutten van een collectief verrijkte kennisbasis en het potentiële risico van het opnemen van schadelijke passages van andere clients. Onze bevindingen onderstrepen de haalbaarheid van CoRAG, terwijl ze ook belangrijke ontwerpuitdagingen en veelbelovende onderzoeksrichtingen voor de toekomst belichten.
English
Retrieval-Augmented Generation (RAG) models excel in knowledge-intensive
tasks, especially under few-shot learning constraints. We introduce CoRAG, a
framework extending RAG to collaborative settings, where clients jointly train
a shared model using a collaborative passage store. To evaluate CoRAG, we
introduce CRAB, a benchmark for collaborative homogeneous open-domain question
answering. Our experiments demonstrate that CoRAG consistently outperforms both
parametric collaborative learning methods and locally trained RAG models in
low-resource scenarios. Further analysis reveals the critical importance of
relevant passages within the shared store, the surprising benefits of
incorporating irrelevant passages, and the potential for hard negatives to
negatively impact performance. This introduces a novel consideration in
collaborative RAG: the trade-off between leveraging a collectively enriched
knowledge base and the potential risk of incorporating detrimental passages
from other clients. Our findings underscore the viability of CoRAG, while also
highlighting key design challenges and promising avenues for future research.