CoRAG: Geração Aumentada por Recuperação Colaborativa
CoRAG: Collaborative Retrieval-Augmented Generation
April 2, 2025
Autores: Aashiq Muhamed, Mona Diab, Virginia Smith
cs.AI
Resumo
Os modelos de Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) destacam-se em tarefas que demandam conhecimento intensivo, especialmente sob restrições de aprendizado com poucos exemplos. Apresentamos o CoRAG, uma estrutura que estende o RAG para cenários colaborativos, onde os clientes treinam conjuntamente um modelo compartilhado utilizando um repositório de passagens colaborativo. Para avaliar o CoRAG, introduzimos o CRAB, um benchmark para tarefas colaborativas homogêneas de questionamento em domínio aberto. Nossos experimentos demonstram que o CoRAG supera consistentemente tanto os métodos de aprendizado colaborativo paramétricos quanto os modelos RAG treinados localmente em cenários de baixos recursos. Análises adicionais revelam a importância crítica das passagens relevantes dentro do repositório compartilhado, os benefícios surpreendentes da incorporação de passagens irrelevantes e o potencial impacto negativo de negativos difíceis no desempenho. Isso introduz uma nova consideração no RAG colaborativo: a troca entre aproveitar uma base de conhecimento coletivamente enriquecida e o risco potencial de incorporar passagens prejudiciais de outros clientes. Nossas descobertas reforçam a viabilidade do CoRAG, ao mesmo tempo que destacam desafios cruciais de design e caminhos promissores para pesquisas futuras.
English
Retrieval-Augmented Generation (RAG) models excel in knowledge-intensive
tasks, especially under few-shot learning constraints. We introduce CoRAG, a
framework extending RAG to collaborative settings, where clients jointly train
a shared model using a collaborative passage store. To evaluate CoRAG, we
introduce CRAB, a benchmark for collaborative homogeneous open-domain question
answering. Our experiments demonstrate that CoRAG consistently outperforms both
parametric collaborative learning methods and locally trained RAG models in
low-resource scenarios. Further analysis reveals the critical importance of
relevant passages within the shared store, the surprising benefits of
incorporating irrelevant passages, and the potential for hard negatives to
negatively impact performance. This introduces a novel consideration in
collaborative RAG: the trade-off between leveraging a collectively enriched
knowledge base and the potential risk of incorporating detrimental passages
from other clients. Our findings underscore the viability of CoRAG, while also
highlighting key design challenges and promising avenues for future research.Summary
AI-Generated Summary