CoRAG: Совместная генерация с расширением на основе поиска
CoRAG: Collaborative Retrieval-Augmented Generation
April 2, 2025
Авторы: Aashiq Muhamed, Mona Diab, Virginia Smith
cs.AI
Аннотация
Модели генерации с усилением поиска (RAG) демонстрируют выдающиеся результаты в задачах, требующих глубоких знаний, особенно в условиях обучения с малым количеством примеров. Мы представляем CoRAG — фреймворк, расширяющий RAG для совместных сценариев, где клиенты совместно обучают общую модель, используя коллективное хранилище текстовых фрагментов. Для оценки CoRAG мы вводим CRAB — эталонный тест для совместного однородного открытого поиска ответов на вопросы. Наши эксперименты показывают, что CoRAG стабильно превосходит как параметрические методы совместного обучения, так и локально обученные модели RAG в условиях ограниченных ресурсов. Дополнительный анализ выявляет критическую важность релевантных фрагментов в общем хранилище, неожиданные преимущества включения нерелевантных фрагментов и потенциальное негативное влияние сложных негативных примеров на производительность. Это вводит новое соображение в совместном RAG: компромисс между использованием коллективно обогащенной базы знаний и потенциальным риском включения вредоносных фрагментов от других клиентов. Наши результаты подчеркивают жизнеспособность CoRAG, а также выделяют ключевые проблемы проектирования и перспективные направления для будущих исследований.
English
Retrieval-Augmented Generation (RAG) models excel in knowledge-intensive
tasks, especially under few-shot learning constraints. We introduce CoRAG, a
framework extending RAG to collaborative settings, where clients jointly train
a shared model using a collaborative passage store. To evaluate CoRAG, we
introduce CRAB, a benchmark for collaborative homogeneous open-domain question
answering. Our experiments demonstrate that CoRAG consistently outperforms both
parametric collaborative learning methods and locally trained RAG models in
low-resource scenarios. Further analysis reveals the critical importance of
relevant passages within the shared store, the surprising benefits of
incorporating irrelevant passages, and the potential for hard negatives to
negatively impact performance. This introduces a novel consideration in
collaborative RAG: the trade-off between leveraging a collectively enriched
knowledge base and the potential risk of incorporating detrimental passages
from other clients. Our findings underscore the viability of CoRAG, while also
highlighting key design challenges and promising avenues for future research.Summary
AI-Generated Summary