К общей согласованности выполнения инструкций для генерации с использованием поискового улучшения
Toward General Instruction-Following Alignment for Retrieval-Augmented Generation
October 12, 2024
Авторы: Guanting Dong, Xiaoshuai Song, Yutao Zhu, Runqi Qiao, Zhicheng Dou, Ji-Rong Wen
cs.AI
Аннотация
Следование естественным инструкциям является ключевым для эффективного применения систем с Расширенной Генерацией с Поиском (RAG). Несмотря на недавние достижения в области Больших Языковых Моделей (LLM), исследования по оценке и улучшению соответствия инструкциям (IF) в рамках домена RAG остаются ограниченными. Для решения этой проблемы мы предлагаем VIF-RAG - первый автоматизированный, масштабируемый и верифицируемый синтетический конвейер для соответствия инструкциям в системах RAG. Мы начинаем с ручного создания минимального набора атомарных инструкций (<100) и разработки правил комбинирования для синтеза и верификации сложных инструкций для начального набора. Затем мы используем модели с учителем для переписывания инструкций, одновременно генерируя код для автоматизации верификации качества инструкций с помощью исполнителя на Python. Наконец, мы интегрируем эти инструкции с обширными выборками данных RAG и общего назначения, масштабируясь до высококачественного набора данных VIF-RAG-QA (>100k) через автоматизированные процессы. Для дальнейшего устранения пробелов в автооценке следования инструкциям для систем RAG мы представляем FollowRAG Benchmark, который включает около 3 тыс. тестовых образцов, охватывающих 22 категории общих ограничений инструкций и четыре набора данных для знаниевооруженных вопросно-ответных систем. Благодаря надежному дизайну конвейера FollowRAG может легко интегрироваться с различными бенчмарками RAG. Используя FollowRAG и восемь широко используемых бенчмарков для оценки следования инструкциям и основных способностей для LLM, мы демонстрируем, что VIF-RAG значительно улучшает производительность LLM в широком диапазоне общих ограничений инструкций, эффективно используя свои возможности в сценариях RAG. Дополнительный анализ предлагает практические идеи для достижения соответствия инструкциям в системах RAG. Наш код и наборы данных доступны по адресу https://FollowRAG.github.io.
English
Following natural instructions is crucial for the effective application of
Retrieval-Augmented Generation (RAG) systems. Despite recent advancements in
Large Language Models (LLMs), research on assessing and improving
instruction-following (IF) alignment within the RAG domain remains limited. To
address this issue, we propose VIF-RAG, the first automated, scalable, and
verifiable synthetic pipeline for instruction-following alignment in RAG
systems. We start by manually crafting a minimal set of atomic instructions
(<100) and developing combination rules to synthesize and verify complex
instructions for a seed set. We then use supervised models for instruction
rewriting while simultaneously generating code to automate the verification of
instruction quality via a Python executor. Finally, we integrate these
instructions with extensive RAG and general data samples, scaling up to a
high-quality VIF-RAG-QA dataset (>100k) through automated processes. To further
bridge the gap in instruction-following auto-evaluation for RAG systems, we
introduce FollowRAG Benchmark, which includes approximately 3K test samples,
covering 22 categories of general instruction constraints and four
knowledge-intensive QA datasets. Due to its robust pipeline design, FollowRAG
can seamlessly integrate with different RAG benchmarks. Using FollowRAG and
eight widely-used IF and foundational abilities benchmarks for LLMs, we
demonstrate that VIF-RAG markedly enhances LLM performance across a broad range
of general instruction constraints while effectively leveraging its
capabilities in RAG scenarios. Further analysis offers practical insights for
achieving IF alignment in RAG systems. Our code and datasets are released at
https://FollowRAG.github.io.Summary
AI-Generated Summary