Hacia la Generación Aumentada de Recuperación Confiable para Modelos de Lenguaje Grandes: Una Encuesta
Towards Trustworthy Retrieval Augmented Generation for Large Language Models: A Survey
February 8, 2025
Autores: Bo Ni, Zheyuan Liu, Leyao Wang, Yongjia Lei, Yuying Zhao, Xueqi Cheng, Qingkai Zeng, Luna Dong, Yinglong Xia, Krishnaram Kenthapadi, Ryan Rossi, Franck Dernoncourt, Md Mehrab Tanjim, Nesreen Ahmed, Xiaorui Liu, Wenqi Fan, Erik Blasch, Yu Wang, Meng Jiang, Tyler Derr
cs.AI
Resumen
La Generación con Recuperación (RAG, por sus siglas en inglés) es una técnica avanzada diseñada para abordar los desafíos del Contenido Generado por Inteligencia Artificial (AIGC). Al integrar la recuperación de contexto en la generación de contenido, RAG proporciona conocimiento externo confiable y actualizado, reduce las alucinaciones y garantiza un contexto relevante en una amplia gama de tareas. Sin embargo, a pesar del éxito y el potencial de RAG, estudios recientes han demostrado que el paradigma de RAG también introduce nuevos riesgos, incluidos problemas de robustez, preocupaciones de privacidad, ataques adversariales y problemas de responsabilidad. Abordar estos riesgos es fundamental para las futuras aplicaciones de los sistemas RAG, ya que impactan directamente en su confiabilidad. Aunque se han desarrollado varios métodos para mejorar la confiabilidad de los métodos RAG, existe una falta de una perspectiva unificada y un marco de investigación en este tema. Por lo tanto, en este documento, nuestro objetivo es abordar esta brecha proporcionando una hoja de ruta integral para desarrollar sistemas RAG confiables. Enfocamos nuestra discusión en torno a cinco perspectivas clave: confiabilidad, privacidad, seguridad, equidad, explicabilidad y responsabilidad. Para cada perspectiva, presentamos un marco general y una taxonomía, ofreciendo un enfoque estructurado para comprender los desafíos actuales, evaluar las soluciones existentes e identificar prometedores futuros enfoques de investigación. Para fomentar una adopción más amplia e innovación, también destacamos las aplicaciones derivadas donde los sistemas RAG confiables tienen un impacto significativo.
English
Retrieval-Augmented Generation (RAG) is an advanced technique designed to
address the challenges of Artificial Intelligence-Generated Content (AIGC). By
integrating context retrieval into content generation, RAG provides reliable
and up-to-date external knowledge, reduces hallucinations, and ensures relevant
context across a wide range of tasks. However, despite RAG's success and
potential, recent studies have shown that the RAG paradigm also introduces new
risks, including robustness issues, privacy concerns, adversarial attacks, and
accountability issues. Addressing these risks is critical for future
applications of RAG systems, as they directly impact their trustworthiness.
Although various methods have been developed to improve the trustworthiness of
RAG methods, there is a lack of a unified perspective and framework for
research in this topic. Thus, in this paper, we aim to address this gap by
providing a comprehensive roadmap for developing trustworthy RAG systems. We
place our discussion around five key perspectives: reliability, privacy,
safety, fairness, explainability, and accountability. For each perspective, we
present a general framework and taxonomy, offering a structured approach to
understanding the current challenges, evaluating existing solutions, and
identifying promising future research directions. To encourage broader adoption
and innovation, we also highlight the downstream applications where trustworthy
RAG systems have a significant impact.Summary
AI-Generated Summary