Comprender las Necesidades del LLM: Alineación Dual de Preferencias para la Generación Aumentada por Recuperación
Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation
June 26, 2024
Autores: Guanting Dong, Yutao Zhu, Chenghao Zhang, Zechen Wang, Zhicheng Dou, Ji-Rong Wen
cs.AI
Resumen
La generación aumentada por recuperación (RAG, por sus siglas en inglés) ha demostrado ser efectiva para mitigar el problema de alucinación en los modelos de lenguaje de gran escala (LLMs). Sin embargo, la dificultad de alinear el recuperador con las diversas preferencias de conocimiento de los LLMs plantea inevitablemente un desafío en el desarrollo de un sistema RAG confiable. Para abordar este problema, proponemos DPA-RAG, un marco universal diseñado para alinear las diversas preferencias de conocimiento dentro de los sistemas RAG. Específicamente, inicialmente introducimos una canalización de construcción de conocimiento de preferencias e incorporamos cinco estrategias novedosas de aumento de consultas para aliviar la escasez de datos de preferencias. Basado en los datos de preferencias, DPA-RAG logra tanto la alineación externa como interna de las preferencias: 1) Integra conjuntamente capacidades de alineación de preferencias por pares, puntuales y contrastivas en el reranker, logrando la alineación externa de preferencias entre los componentes de RAG. 2) Además, introduce una etapa de pre-alineación antes del ajuste fino supervisado (SFT) convencional, permitiendo que los LLMs capturen implícitamente conocimiento alineado con sus preferencias de razonamiento, logrando la alineación interna de los LLMs. Los resultados experimentales en cuatro conjuntos de datos de preguntas y respuestas intensivas en conocimiento demuestran que DPA-RAG supera a todas las líneas base y se integra sin problemas tanto con lectores LLM de caja negra como de código abierto. Además, el análisis cualitativo y las discusiones proporcionan orientación empírica para lograr sistemas RAG confiables. Nuestro código está disponible públicamente en https://github.com/dongguanting/DPA-RAG.
English
Retrieval-augmented generation (RAG) has demonstrated effectiveness in
mitigating the hallucination problem of large language models (LLMs). However,
the difficulty of aligning the retriever with the diverse LLMs' knowledge
preferences inevitably poses an inevitable challenge in developing a reliable
RAG system. To address this issue, we propose DPA-RAG, a universal framework
designed to align diverse knowledge preferences within RAG systems.
Specifically, we initially introduce a preference knowledge construction
pipline and incorporate five novel query augmentation strategies to alleviate
preference data scarcity. Based on preference data, DPA-RAG accomplishes both
external and internal preference alignment: 1) It jointly integrate pair-wise,
point-wise, and contrastive preference alignment abilities into the reranker,
achieving external preference alignment among RAG components. 2) It further
introduces a pre-aligned stage before vanilla Supervised Fine-tuning (SFT),
enabling LLMs to implicitly capture knowledge aligned with their reasoning
preferences, achieving LLMs' internal alignment. Experimental results across
four knowledge-intensive QA datasets demonstrate that DPA-RAG outperforms all
baselines and seamlessly integrates both black-box and open-sourced LLM
readers. Further qualitative analysis and discussions also provide empirical
guidance for achieving reliable RAG systems. Our code is publicly available at
https://github.com/dongguanting/DPA-RAG.Summary
AI-Generated Summary