Naar Algemene Instructievolgalignering voor Generatie met Toegevoegde Ophaling
Toward General Instruction-Following Alignment for Retrieval-Augmented Generation
October 12, 2024
Auteurs: Guanting Dong, Xiaoshuai Song, Yutao Zhu, Runqi Qiao, Zhicheng Dou, Ji-Rong Wen
cs.AI
Samenvatting
Het volgen van natuurlijke instructies is cruciaal voor de effectieve toepassing van Retrieval-Augmented Generation (RAG) systemen. Ondanks recente ontwikkelingen in Large Language Models (LLMs) blijft onderzoek naar het beoordelen en verbeteren van instructievolging (IF) binnen het RAG-domein beperkt. Om dit probleem aan te pakken, stellen we VIF-RAG voor, de eerste geautomatiseerde, schaalbare en verifieerbare synthetische pijplijn voor instructievolging in RAG systemen. We beginnen met het handmatig samenstellen van een minimaal aantal atomaire instructies (<100) en het ontwikkelen van combinatieregels om complexe instructies te synthetiseren en verifiëren voor een initiële set. Vervolgens gebruiken we begeleide modellen voor instructieherschrijving terwijl we tegelijkertijd code genereren om de kwaliteit van de instructies te automatiseren via een Python-uitvoerder. Ten slotte integreren we deze instructies met uitgebreide RAG- en algemene gegevensmonsters, opschalend naar een hoogwaardige VIF-RAG-QA dataset (>100k) via geautomatiseerde processen. Om de kloof in zelfevaluatie van instructievolging voor RAG systemen verder te overbruggen, introduceren we de FollowRAG Benchmark, die ongeveer 3K testmonsters bevat, die 22 categorieën van algemene instructiebeperkingen en vier op kennis gebaseerde QA datasets bestrijken. Dankzij het robuuste ontwerp van de pijplijn kan FollowRAG naadloos integreren met verschillende RAG benchmarks. Door gebruik te maken van FollowRAG en acht veelgebruikte IF- en fundamentele vaardigheden benchmarks voor LLMs, tonen we aan dat VIF-RAG aanzienlijk de prestaties van LLMs verbetert over een breed scala van algemene instructiebeperkingen, terwijl het effectief gebruik maakt van zijn mogelijkheden in RAG scenario's. Verder onderzoek biedt praktische inzichten voor het bereiken van IF-alignment in RAG systemen. Onze code en datasets zijn beschikbaar op https://FollowRAG.github.io.
English
Following natural instructions is crucial for the effective application of
Retrieval-Augmented Generation (RAG) systems. Despite recent advancements in
Large Language Models (LLMs), research on assessing and improving
instruction-following (IF) alignment within the RAG domain remains limited. To
address this issue, we propose VIF-RAG, the first automated, scalable, and
verifiable synthetic pipeline for instruction-following alignment in RAG
systems. We start by manually crafting a minimal set of atomic instructions
(<100) and developing combination rules to synthesize and verify complex
instructions for a seed set. We then use supervised models for instruction
rewriting while simultaneously generating code to automate the verification of
instruction quality via a Python executor. Finally, we integrate these
instructions with extensive RAG and general data samples, scaling up to a
high-quality VIF-RAG-QA dataset (>100k) through automated processes. To further
bridge the gap in instruction-following auto-evaluation for RAG systems, we
introduce FollowRAG Benchmark, which includes approximately 3K test samples,
covering 22 categories of general instruction constraints and four
knowledge-intensive QA datasets. Due to its robust pipeline design, FollowRAG
can seamlessly integrate with different RAG benchmarks. Using FollowRAG and
eight widely-used IF and foundational abilities benchmarks for LLMs, we
demonstrate that VIF-RAG markedly enhances LLM performance across a broad range
of general instruction constraints while effectively leveraging its
capabilities in RAG scenarios. Further analysis offers practical insights for
achieving IF alignment in RAG systems. Our code and datasets are released at
https://FollowRAG.github.io.Summary
AI-Generated Summary