Rumo à Alinhamento Geral de Seguimento de Instruções para Geração Aprimorada por Recuperação
Toward General Instruction-Following Alignment for Retrieval-Augmented Generation
October 12, 2024
Autores: Guanting Dong, Xiaoshuai Song, Yutao Zhu, Runqi Qiao, Zhicheng Dou, Ji-Rong Wen
cs.AI
Resumo
Seguir instruções naturais é crucial para a aplicação eficaz de sistemas de Geração com Recuperação (RAG). Apesar dos avanços recentes em Modelos de Linguagem Grandes (LLMs), a pesquisa sobre avaliação e melhoria da alinhamento na execução de instruções (IF) no domínio RAG ainda é limitada. Para abordar essa questão, propomos VIF-RAG, o primeiro pipeline sintético automatizado, escalável e verificável para alinhamento na execução de instruções em sistemas RAG. Começamos criando manualmente um conjunto mínimo de instruções atômicas (<100) e desenvolvendo regras de combinação para sintetizar e verificar instruções complexas para um conjunto inicial. Em seguida, utilizamos modelos supervisionados para reescrever instruções enquanto geramos código para automatizar a verificação da qualidade da instrução por meio de um executor Python. Por fim, integramos essas instruções com extensas amostras de dados RAG e gerais, escalando para um conjunto de dados VIF-RAG-QA de alta qualidade (>100k) por meio de processos automatizados. Para preencher ainda mais a lacuna na autoavaliação da execução de instruções para sistemas RAG, introduzimos o Benchmark FollowRAG, que inclui aproximadamente 3K amostras de teste, cobrindo 22 categorias de restrições de instruções gerais e quatro conjuntos de dados QA intensivos em conhecimento. Devido ao seu design robusto de pipeline, o FollowRAG pode ser integrado facilmente com diferentes benchmarks RAG. Usando o FollowRAG e oito benchmarks amplamente utilizados de IF e habilidades fundamentais para LLMs, demonstramos que o VIF-RAG melhora significativamente o desempenho do LLM em uma ampla gama de restrições de instruções gerais, aproveitando efetivamente suas capacidades em cenários RAG. Análises adicionais oferecem insights práticos para alcançar o alinhamento na execução de instruções em sistemas RAG. Nosso código e conjuntos de dados estão disponíveis em https://FollowRAG.github.io.
English
Following natural instructions is crucial for the effective application of
Retrieval-Augmented Generation (RAG) systems. Despite recent advancements in
Large Language Models (LLMs), research on assessing and improving
instruction-following (IF) alignment within the RAG domain remains limited. To
address this issue, we propose VIF-RAG, the first automated, scalable, and
verifiable synthetic pipeline for instruction-following alignment in RAG
systems. We start by manually crafting a minimal set of atomic instructions
(<100) and developing combination rules to synthesize and verify complex
instructions for a seed set. We then use supervised models for instruction
rewriting while simultaneously generating code to automate the verification of
instruction quality via a Python executor. Finally, we integrate these
instructions with extensive RAG and general data samples, scaling up to a
high-quality VIF-RAG-QA dataset (>100k) through automated processes. To further
bridge the gap in instruction-following auto-evaluation for RAG systems, we
introduce FollowRAG Benchmark, which includes approximately 3K test samples,
covering 22 categories of general instruction constraints and four
knowledge-intensive QA datasets. Due to its robust pipeline design, FollowRAG
can seamlessly integrate with different RAG benchmarks. Using FollowRAG and
eight widely-used IF and foundational abilities benchmarks for LLMs, we
demonstrate that VIF-RAG markedly enhances LLM performance across a broad range
of general instruction constraints while effectively leveraging its
capabilities in RAG scenarios. Further analysis offers practical insights for
achieving IF alignment in RAG systems. Our code and datasets are released at
https://FollowRAG.github.io.Summary
AI-Generated Summary