Naar Betrouwbare Ophaling Versterkte Generatie voor Grote Taalmodellen: Een Overzicht
Towards Trustworthy Retrieval Augmented Generation for Large Language Models: A Survey
February 8, 2025
Auteurs: Bo Ni, Zheyuan Liu, Leyao Wang, Yongjia Lei, Yuying Zhao, Xueqi Cheng, Qingkai Zeng, Luna Dong, Yinglong Xia, Krishnaram Kenthapadi, Ryan Rossi, Franck Dernoncourt, Md Mehrab Tanjim, Nesreen Ahmed, Xiaorui Liu, Wenqi Fan, Erik Blasch, Yu Wang, Meng Jiang, Tyler Derr
cs.AI
Samenvatting
Retrieval-Augmented Generation (RAG) is een geavanceerde techniek die is ontworpen om de uitdagingen van door kunstmatige intelligentie gegenereerde inhoud (AIGC) aan te pakken. Door contextuele opvraging te integreren in de inhoudsgeneratie, biedt RAG betrouwbare en actuele externe kennis, vermindert hallucinaties en zorgt voor relevante context over een breed scala aan taken. Echter, ondanks het succes en potentieel van RAG, hebben recente studies aangetoond dat het RAG-paradigma ook nieuwe risico's met zich meebrengt, waaronder robuustheidsproblemen, privacyzorgen, aanvallen van kwaadwillenden en verantwoordelijkheidskwesties. Het aanpakken van deze risico's is cruciaal voor toekomstige toepassingen van RAG-systemen, aangezien ze rechtstreeks van invloed zijn op hun betrouwbaarheid. Hoewel verschillende methoden zijn ontwikkeld om de betrouwbaarheid van RAG-methoden te verbeteren, ontbreekt het aan een eenduidig perspectief en kader voor onderzoek naar dit onderwerp. Daarom beogen we in dit artikel dit hiaat aan te pakken door een uitgebreide routekaart te bieden voor de ontwikkeling van betrouwbare RAG-systemen. We plaatsen onze discussie rond vijf belangrijke perspectieven: betrouwbaarheid, privacy, veiligheid, rechtvaardigheid, verklaringsmogelijkheden en verantwoordingsplicht. Voor elk perspectief presenteren we een algemeen kader en taxonomie, waarbij we een gestructureerde benadering bieden om de huidige uitdagingen te begrijpen, bestaande oplossingen te evalueren en veelbelovende toekomstige onderzoeksrichtingen te identificeren. Om een breder gebruik en innovatie aan te moedigen, benadrukken we ook de downstream-toepassingen waar betrouwbare RAG-systemen een significante impact hebben.
English
Retrieval-Augmented Generation (RAG) is an advanced technique designed to
address the challenges of Artificial Intelligence-Generated Content (AIGC). By
integrating context retrieval into content generation, RAG provides reliable
and up-to-date external knowledge, reduces hallucinations, and ensures relevant
context across a wide range of tasks. However, despite RAG's success and
potential, recent studies have shown that the RAG paradigm also introduces new
risks, including robustness issues, privacy concerns, adversarial attacks, and
accountability issues. Addressing these risks is critical for future
applications of RAG systems, as they directly impact their trustworthiness.
Although various methods have been developed to improve the trustworthiness of
RAG methods, there is a lack of a unified perspective and framework for
research in this topic. Thus, in this paper, we aim to address this gap by
providing a comprehensive roadmap for developing trustworthy RAG systems. We
place our discussion around five key perspectives: reliability, privacy,
safety, fairness, explainability, and accountability. For each perspective, we
present a general framework and taxonomy, offering a structured approach to
understanding the current challenges, evaluating existing solutions, and
identifying promising future research directions. To encourage broader adoption
and innovation, we also highlight the downstream applications where trustworthy
RAG systems have a significant impact.Summary
AI-Generated Summary