Compreender o que o LLM precisa: Alinhamento de Preferência Dupla para Geração Aprimorada por Recuperação.
Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation
June 26, 2024
Autores: Guanting Dong, Yutao Zhu, Chenghao Zhang, Zechen Wang, Zhicheng Dou, Ji-Rong Wen
cs.AI
Resumo
A geração aumentada por recuperação (RAG) demonstrou eficácia em mitigar o problema de alucinação dos grandes modelos de linguagem (LLMs). No entanto, a dificuldade de alinhar o recuperador com as diversas preferências de conhecimento dos LLMs inevitavelmente apresenta um desafio na criação de um sistema RAG confiável. Para abordar essa questão, propomos o DPA-RAG, um framework universal projetado para alinhar diversas preferências de conhecimento dentro de sistemas RAG. Especificamente, introduzimos inicialmente uma tubulação de construção de conhecimento de preferência e incorporamos cinco estratégias de aumento de consulta inovadoras para mitigar a escassez de dados de preferência. Com base nos dados de preferência, o DPA-RAG realiza o alinhamento de preferência externo e interno: 1) Ele integra conjuntamente habilidades de alinhamento de preferência por pares, por ponto e contrastivo no reranker, alcançando o alinhamento de preferência externo entre os componentes do RAG. 2) Ele introduz ainda uma etapa pré-alinhada antes do Ajuste Fino Supervisionado (SFT) convencional, permitindo que os LLMs capturem implicitamente conhecimento alinhado com suas preferências de raciocínio, alcançando o alinhamento interno dos LLMs. Resultados experimentais em quatro conjuntos de dados de perguntas e respostas intensivas em conhecimento demonstram que o DPA-RAG supera todos os baselines e integra perfeitamente leitores de LLMs black-box e de código aberto. Análises qualitativas adicionais e discussões também fornecem orientações empíricas para alcançar sistemas RAG confiáveis. Nosso código está publicamente disponível em https://github.com/dongguanting/DPA-RAG.
English
Retrieval-augmented generation (RAG) has demonstrated effectiveness in
mitigating the hallucination problem of large language models (LLMs). However,
the difficulty of aligning the retriever with the diverse LLMs' knowledge
preferences inevitably poses an inevitable challenge in developing a reliable
RAG system. To address this issue, we propose DPA-RAG, a universal framework
designed to align diverse knowledge preferences within RAG systems.
Specifically, we initially introduce a preference knowledge construction
pipline and incorporate five novel query augmentation strategies to alleviate
preference data scarcity. Based on preference data, DPA-RAG accomplishes both
external and internal preference alignment: 1) It jointly integrate pair-wise,
point-wise, and contrastive preference alignment abilities into the reranker,
achieving external preference alignment among RAG components. 2) It further
introduces a pre-aligned stage before vanilla Supervised Fine-tuning (SFT),
enabling LLMs to implicitly capture knowledge aligned with their reasoning
preferences, achieving LLMs' internal alignment. Experimental results across
four knowledge-intensive QA datasets demonstrate that DPA-RAG outperforms all
baselines and seamlessly integrates both black-box and open-sourced LLM
readers. Further qualitative analysis and discussions also provide empirical
guidance for achieving reliable RAG systems. Our code is publicly available at
https://github.com/dongguanting/DPA-RAG.