CoRAG: Geração Aumentada por Recuperação Colaborativa

Resumo

Os modelos de Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) destacam-se em tarefas que demandam conhecimento intensivo, especialmente sob restrições de aprendizado com poucos exemplos. Apresentamos o CoRAG, uma estrutura que estende o RAG para cenários colaborativos, onde os clientes treinam conjuntamente um modelo compartilhado utilizando um repositório de passagens colaborativo. Para avaliar o CoRAG, introduzimos o CRAB, um benchmark para tarefas colaborativas homogêneas de questionamento em domínio aberto. Nossos experimentos demonstram que o CoRAG supera consistentemente tanto os métodos de aprendizado colaborativo paramétricos quanto os modelos RAG treinados localmente em cenários de baixos recursos. Análises adicionais revelam a importância crítica das passagens relevantes dentro do repositório compartilhado, os benefícios surpreendentes da incorporação de passagens irrelevantes e o potencial impacto negativo de negativos difíceis no desempenho. Isso introduz uma nova consideração no RAG colaborativo: a troca entre aproveitar uma base de conhecimento coletivamente enriquecida e o risco potencial de incorporar passagens prejudiciais de outros clientes. Nossas descobertas reforçam a viabilidade do CoRAG, ao mesmo tempo que destacam desafios cruciais de design e caminhos promissores para pesquisas futuras.

English

Retrieval-Augmented Generation (RAG) models excel in knowledge-intensive tasks, especially under few-shot learning constraints. We introduce CoRAG, a framework extending RAG to collaborative settings, where clients jointly train a shared model using a collaborative passage store. To evaluate CoRAG, we introduce CRAB, a benchmark for collaborative homogeneous open-domain question answering. Our experiments demonstrate that CoRAG consistently outperforms both parametric collaborative learning methods and locally trained RAG models in low-resource scenarios. Further analysis reveals the critical importance of relevant passages within the shared store, the surprising benefits of incorporating irrelevant passages, and the potential for hard negatives to negatively impact performance. This introduces a novel consideration in collaborative RAG: the trade-off between leveraging a collectively enriched knowledge base and the potential risk of incorporating detrimental passages from other clients. Our findings underscore the viability of CoRAG, while also highlighting key design challenges and promising avenues for future research.

CoRAG: Geração Aumentada por Recuperação Colaborativa

CoRAG: Collaborative Retrieval-Augmented Generation

Resumo

Summary

Support

Support