CoRAG : Génération Augmentée par Récupération Collaborative

papers.abstract

Les modèles de Génération Augmentée par Récupération (RAG) excellent dans les tâches nécessitant une connaissance approfondie, en particulier dans des conditions d'apprentissage avec peu d'exemples. Nous présentons CoRAG, un cadre étendant RAG à des contextes collaboratifs, où les clients entraînent conjointement un modèle partagé en utilisant un référentiel de passages collaboratif. Pour évaluer CoRAG, nous introduisons CRAB, un benchmark pour le question-réponse ouvert collaboratif et homogène. Nos expériences démontrent que CoRAG surpasse systématiquement à la fois les méthodes d'apprentissage collaboratif paramétriques et les modèles RAG entraînés localement dans des scénarios à faibles ressources. Une analyse approfondie révèle l'importance cruciale des passages pertinents dans le référentiel partagé, les avantages surprenants de l'intégration de passages non pertinents, et le potentiel impact négatif des exemples négatifs difficiles sur la performance. Cela introduit une nouvelle considération dans le RAG collaboratif : le compromis entre l'exploitation d'une base de connaissances collectivement enrichie et le risque potentiel d'intégrer des passages nuisibles provenant d'autres clients. Nos résultats soulignent la viabilité de CoRAG, tout en mettant en lumière des défis clés de conception et des pistes prometteuses pour de futures recherches.

English

Retrieval-Augmented Generation (RAG) models excel in knowledge-intensive tasks, especially under few-shot learning constraints. We introduce CoRAG, a framework extending RAG to collaborative settings, where clients jointly train a shared model using a collaborative passage store. To evaluate CoRAG, we introduce CRAB, a benchmark for collaborative homogeneous open-domain question answering. Our experiments demonstrate that CoRAG consistently outperforms both parametric collaborative learning methods and locally trained RAG models in low-resource scenarios. Further analysis reveals the critical importance of relevant passages within the shared store, the surprising benefits of incorporating irrelevant passages, and the potential for hard negatives to negatively impact performance. This introduces a novel consideration in collaborative RAG: the trade-off between leveraging a collectively enriched knowledge base and the potential risk of incorporating detrimental passages from other clients. Our findings underscore the viability of CoRAG, while also highlighting key design challenges and promising avenues for future research.

CoRAG : Génération Augmentée par Récupération Collaborative

CoRAG: Collaborative Retrieval-Augmented Generation

papers.abstract

Support