Comprendere le Esigenze degli LLM: Allineamento Duale delle Preferenze per la Generazione Aumentata dal Recupero
Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation
June 26, 2024
Autori: Guanting Dong, Yutao Zhu, Chenghao Zhang, Zechen Wang, Zhicheng Dou, Ji-Rong Wen
cs.AI
Abstract
La generazione aumentata dal recupero (RAG) ha dimostrato efficacia nel mitigare il problema delle allucinazioni nei grandi modelli linguistici (LLM). Tuttavia, la difficoltà di allineare il sistema di recupero con le diverse preferenze di conoscenza degli LLM pone inevitabilmente una sfida nello sviluppo di un sistema RAG affidabile. Per affrontare questo problema, proponiamo DPA-RAG, un framework universale progettato per allineare le diverse preferenze di conoscenza all'interno dei sistemi RAG. Nello specifico, inizialmente introduciamo una pipeline di costruzione della conoscenza delle preferenze e incorporiamo cinque nuove strategie di aumento delle query per alleviare la scarsità di dati sulle preferenze. Basandosi sui dati delle preferenze, DPA-RAG realizza sia l'allineamento esterno che interno delle preferenze: 1) Integra congiuntamente capacità di allineamento delle preferenze pair-wise, point-wise e contrastive nel reranker, raggiungendo l'allineamento esterno delle preferenze tra i componenti RAG. 2) Introduce inoltre una fase di pre-allineamento prima del classico Supervised Fine-tuning (SFT), consentendo agli LLM di catturare implicitamente conoscenze allineate con le loro preferenze di ragionamento, raggiungendo l'allineamento interno degli LLM. I risultati sperimentali su quattro dataset di QA ad alta intensità di conoscenza dimostrano che DPA-RAG supera tutte le baseline e si integra perfettamente sia con lettori LLM black-box che open-source. Ulteriori analisi qualitative e discussioni forniscono anche indicazioni empiriche per raggiungere sistemi RAG affidabili. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/dongguanting/DPA-RAG.
English
Retrieval-augmented generation (RAG) has demonstrated effectiveness in
mitigating the hallucination problem of large language models (LLMs). However,
the difficulty of aligning the retriever with the diverse LLMs' knowledge
preferences inevitably poses an inevitable challenge in developing a reliable
RAG system. To address this issue, we propose DPA-RAG, a universal framework
designed to align diverse knowledge preferences within RAG systems.
Specifically, we initially introduce a preference knowledge construction
pipline and incorporate five novel query augmentation strategies to alleviate
preference data scarcity. Based on preference data, DPA-RAG accomplishes both
external and internal preference alignment: 1) It jointly integrate pair-wise,
point-wise, and contrastive preference alignment abilities into the reranker,
achieving external preference alignment among RAG components. 2) It further
introduces a pre-aligned stage before vanilla Supervised Fine-tuning (SFT),
enabling LLMs to implicitly capture knowledge aligned with their reasoning
preferences, achieving LLMs' internal alignment. Experimental results across
four knowledge-intensive QA datasets demonstrate that DPA-RAG outperforms all
baselines and seamlessly integrates both black-box and open-sourced LLM
readers. Further qualitative analysis and discussions also provide empirical
guidance for achieving reliable RAG systems. Our code is publicly available at
https://github.com/dongguanting/DPA-RAG.