CoRAG: Generación Aumentada por Recuperación Colaborativa
CoRAG: Collaborative Retrieval-Augmented Generation
April 2, 2025
Autores: Aashiq Muhamed, Mona Diab, Virginia Smith
cs.AI
Resumen
Los modelos de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) destacan en tareas intensivas en conocimiento, especialmente bajo restricciones de aprendizaje con pocos ejemplos. Presentamos CoRAG, un marco que extiende RAG a entornos colaborativos, donde los clientes entrenan conjuntamente un modelo compartido utilizando un almacén de pasajes colaborativo. Para evaluar CoRAG, introducimos CRAB, un punto de referencia para la respuesta colaborativa homogénea a preguntas de dominio abierto. Nuestros experimentos demuestran que CoRAG supera consistentemente tanto a los métodos de aprendizaje colaborativo paramétricos como a los modelos RAG entrenados localmente en escenarios de bajos recursos. Un análisis más profundo revela la importancia crítica de los pasajes relevantes dentro del almacén compartido, los beneficios sorprendentes de incorporar pasajes irrelevantes y el potencial de que los negativos duros afecten negativamente el rendimiento. Esto introduce una consideración novedosa en RAG colaborativo: el equilibrio entre aprovechar una base de conocimiento colectivamente enriquecida y el riesgo potencial de incorporar pasajes perjudiciales de otros clientes. Nuestros hallazgos subrayan la viabilidad de CoRAG, al mismo tiempo que destacan desafíos clave de diseño y áreas prometedoras para futuras investigaciones.
English
Retrieval-Augmented Generation (RAG) models excel in knowledge-intensive
tasks, especially under few-shot learning constraints. We introduce CoRAG, a
framework extending RAG to collaborative settings, where clients jointly train
a shared model using a collaborative passage store. To evaluate CoRAG, we
introduce CRAB, a benchmark for collaborative homogeneous open-domain question
answering. Our experiments demonstrate that CoRAG consistently outperforms both
parametric collaborative learning methods and locally trained RAG models in
low-resource scenarios. Further analysis reveals the critical importance of
relevant passages within the shared store, the surprising benefits of
incorporating irrelevant passages, and the potential for hard negatives to
negatively impact performance. This introduces a novel consideration in
collaborative RAG: the trade-off between leveraging a collectively enriched
knowledge base and the potential risk of incorporating detrimental passages
from other clients. Our findings underscore the viability of CoRAG, while also
highlighting key design challenges and promising avenues for future research.Summary
AI-Generated Summary