Begrijp Wat LLM Nodig Heeft: Duale Voorkeursafstemming voor Retrieval-Augmented Generatie
Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation
June 26, 2024
Auteurs: Guanting Dong, Yutao Zhu, Chenghao Zhang, Zechen Wang, Zhicheng Dou, Ji-Rong Wen
cs.AI
Samenvatting
Retrieval-augmented generation (RAG) heeft zijn effectiviteit aangetoond bij het verminderen van het hallucinatieprobleem van grote taalmodellen (LLM's). De uitdaging om de retriever af te stemmen op de diverse kennisvoorkeuren van LLM's vormt echter onvermijdelijk een obstakel bij de ontwikkeling van een betrouwbaar RAG-systeem. Om dit probleem aan te pakken, stellen we DPA-RAG voor, een universeel raamwerk ontworpen om diverse kennisvoorkeuren binnen RAG-systemen af te stemmen. Specifiek introduceren we eerst een pijplijn voor het construeren van voorkeurskennis en integreren we vijf nieuwe query-augmentatiestrategieën om het tekort aan voorkeursdata te verlichten. Op basis van voorkeursdata realiseert DPA-RAG zowel externe als interne voorkeursafstemming: 1) Het integreert gezamenlijk pair-wise, point-wise en contrastieve voorkeursafstemmingsmogelijkheden in de reranker, waardoor externe voorkeursafstemming tussen RAG-componenten wordt bereikt. 2) Het introduceert verder een vooraf afgestemd stadium vóór de standaard Supervised Fine-tuning (SFT), waardoor LLM's impliciet kennis kunnen vastleggen die aansluit bij hun redeneervoorkeuren, wat resulteert in interne afstemming van LLM's. Experimentele resultaten op vier kennisintensieve QA-datasets tonen aan dat DPA-RAG alle baseline-methoden overtreft en naadloos zowel black-box als open-source LLM-lezers integreert. Verdere kwalitatieve analyses en discussies bieden ook empirische richtlijnen voor het realiseren van betrouwbare RAG-systemen. Onze code is openbaar beschikbaar op https://github.com/dongguanting/DPA-RAG.
English
Retrieval-augmented generation (RAG) has demonstrated effectiveness in
mitigating the hallucination problem of large language models (LLMs). However,
the difficulty of aligning the retriever with the diverse LLMs' knowledge
preferences inevitably poses an inevitable challenge in developing a reliable
RAG system. To address this issue, we propose DPA-RAG, a universal framework
designed to align diverse knowledge preferences within RAG systems.
Specifically, we initially introduce a preference knowledge construction
pipline and incorporate five novel query augmentation strategies to alleviate
preference data scarcity. Based on preference data, DPA-RAG accomplishes both
external and internal preference alignment: 1) It jointly integrate pair-wise,
point-wise, and contrastive preference alignment abilities into the reranker,
achieving external preference alignment among RAG components. 2) It further
introduces a pre-aligned stage before vanilla Supervised Fine-tuning (SFT),
enabling LLMs to implicitly capture knowledge aligned with their reasoning
preferences, achieving LLMs' internal alignment. Experimental results across
four knowledge-intensive QA datasets demonstrate that DPA-RAG outperforms all
baselines and seamlessly integrates both black-box and open-sourced LLM
readers. Further qualitative analysis and discussions also provide empirical
guidance for achieving reliable RAG systems. Our code is publicly available at
https://github.com/dongguanting/DPA-RAG.