Auf dem Weg zur allgemeinen Anweisungsverfolgungs-Ausrichtung für abrufgestützte Generierung.

papers.abstract

Das präzise Befolgen von Anweisungen ist entscheidend für die effektive Anwendung von Retrieval-Augmented Generation (RAG)-Systemen. Trotz jüngster Fortschritte bei Large Language Models (LLMs) ist die Forschung zur Bewertung und Verbesserung der Anweisungsbeachtung (IF) innerhalb des RAG-Bereichs begrenzt. Um dieses Problem anzugehen, schlagen wir VIF-RAG vor, die erste automatisierte, skalierbare und überprüfbare synthetische Pipeline zur Ausrichtung der Anweisungsbeachtung in RAG-Systemen. Wir beginnen damit, ein minimales Set von atomaren Anweisungen (<100) manuell zu erstellen und Kombinationsregeln zu entwickeln, um komplexe Anweisungen für ein Ausgangsset zu synthetisieren und zu überprüfen. Anschließend verwenden wir überwachte Modelle zur Anweisungsumformulierung und generieren gleichzeitig Code, um die Qualität der Anweisungen mithilfe eines Python-Executors automatisch zu überprüfen. Schließlich integrieren wir diese Anweisungen mit umfangreichen RAG- und allgemeinen Datensätzen und skalieren auf einen hochwertigen VIF-RAG-QA-Datensatz (>100k) durch automatisierte Prozesse. Um die Lücke in der automatischen Bewertung der Anweisungsbeachtung für RAG-Systeme weiter zu schließen, führen wir das FollowRAG Benchmark ein, das etwa 3K Testproben umfasst und 22 Kategorien allgemeiner Anweisungsbeschränkungen sowie vier wissensintensive QA-Datensätze abdeckt. Aufgrund seines robusten Pipeline-Designs kann FollowRAG nahtlos mit verschiedenen RAG-Benchmarks integriert werden. Unter Verwendung von FollowRAG und acht weit verbreiteten IF- und grundlegenden Fähigkeiten-Benchmarks für LLMs zeigen wir, dass VIF-RAG die Leistung von LLMs über eine breite Palette allgemeiner Anweisungsbeschränkungen deutlich verbessert und dabei effektiv seine Fähigkeiten in RAG-Szenarien nutzt. Eine weitere Analyse bietet praktische Einblicke, um die Anweisungsbeachtung in RAG-Systemen zu erreichen. Unser Code und unsere Datensätze sind unter https://FollowRAG.github.io verfügbar.

English

Following natural instructions is crucial for the effective application of Retrieval-Augmented Generation (RAG) systems. Despite recent advancements in Large Language Models (LLMs), research on assessing and improving instruction-following (IF) alignment within the RAG domain remains limited. To address this issue, we propose VIF-RAG, the first automated, scalable, and verifiable synthetic pipeline for instruction-following alignment in RAG systems. We start by manually crafting a minimal set of atomic instructions (<100) and developing combination rules to synthesize and verify complex instructions for a seed set. We then use supervised models for instruction rewriting while simultaneously generating code to automate the verification of instruction quality via a Python executor. Finally, we integrate these instructions with extensive RAG and general data samples, scaling up to a high-quality VIF-RAG-QA dataset (>100k) through automated processes. To further bridge the gap in instruction-following auto-evaluation for RAG systems, we introduce FollowRAG Benchmark, which includes approximately 3K test samples, covering 22 categories of general instruction constraints and four knowledge-intensive QA datasets. Due to its robust pipeline design, FollowRAG can seamlessly integrate with different RAG benchmarks. Using FollowRAG and eight widely-used IF and foundational abilities benchmarks for LLMs, we demonstrate that VIF-RAG markedly enhances LLM performance across a broad range of general instruction constraints while effectively leveraging its capabilities in RAG scenarios. Further analysis offers practical insights for achieving IF alignment in RAG systems. Our code and datasets are released at https://FollowRAG.github.io.

Auf dem Weg zur allgemeinen Anweisungsverfolgungs-Ausrichtung für abrufgestützte Generierung.

Toward General Instruction-Following Alignment for Retrieval-Augmented Generation

papers.abstract

Support