CoRAG : Génération Augmentée par Récupération Collaborative
CoRAG: Collaborative Retrieval-Augmented Generation
April 2, 2025
Auteurs: Aashiq Muhamed, Mona Diab, Virginia Smith
cs.AI
Résumé
Les modèles de Génération Augmentée par Récupération (RAG) excellent dans les tâches nécessitant une connaissance approfondie, en particulier dans des conditions d'apprentissage avec peu d'exemples. Nous présentons CoRAG, un cadre étendant RAG à des contextes collaboratifs, où les clients entraînent conjointement un modèle partagé en utilisant un référentiel de passages collaboratif. Pour évaluer CoRAG, nous introduisons CRAB, un benchmark pour le question-réponse ouvert collaboratif et homogène. Nos expériences démontrent que CoRAG surpasse systématiquement à la fois les méthodes d'apprentissage collaboratif paramétriques et les modèles RAG entraînés localement dans des scénarios à faibles ressources. Une analyse approfondie révèle l'importance cruciale des passages pertinents dans le référentiel partagé, les avantages surprenants de l'intégration de passages non pertinents, et le potentiel impact négatif des exemples négatifs difficiles sur la performance. Cela introduit une nouvelle considération dans le RAG collaboratif : le compromis entre l'exploitation d'une base de connaissances collectivement enrichie et le risque potentiel d'intégrer des passages nuisibles provenant d'autres clients. Nos résultats soulignent la viabilité de CoRAG, tout en mettant en lumière des défis clés de conception et des pistes prometteuses pour de futures recherches.
English
Retrieval-Augmented Generation (RAG) models excel in knowledge-intensive
tasks, especially under few-shot learning constraints. We introduce CoRAG, a
framework extending RAG to collaborative settings, where clients jointly train
a shared model using a collaborative passage store. To evaluate CoRAG, we
introduce CRAB, a benchmark for collaborative homogeneous open-domain question
answering. Our experiments demonstrate that CoRAG consistently outperforms both
parametric collaborative learning methods and locally trained RAG models in
low-resource scenarios. Further analysis reveals the critical importance of
relevant passages within the shared store, the surprising benefits of
incorporating irrelevant passages, and the potential for hard negatives to
negatively impact performance. This introduces a novel consideration in
collaborative RAG: the trade-off between leveraging a collectively enriched
knowledge base and the potential risk of incorporating detrimental passages
from other clients. Our findings underscore the viability of CoRAG, while also
highlighting key design challenges and promising avenues for future research.Summary
AI-Generated Summary