ChatPaper.aiChatPaper

事実、取得、および推論:検索拡張生成の統一評価

Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation

September 19, 2024
著者: Satyapriya Krishna, Kalpesh Krishna, Anhad Mohananey, Steven Schwarcz, Adam Stambler, Shyam Upadhyay, Manaal Faruqui
cs.AI

要旨

大規模言語モデル(LLMs)は、さまざまな認知タスクで著しい性能向上を実証しています。新興の応用例として、LLMsを活用して検索拡張生成(RAG)能力を向上させることが挙げられます。これらのシステムは、ユーザークエリを理解し、関連情報を取得し、筋の通った正確な応答を生成することが求められます。このようなシステムの実世界での展開が増加するにつれ、包括的な評価が重要となります。このために、私たちはFRAMES(Factuality, Retrieval, And reasoning MEasurement Set)を提案します。これは、LLMsが事実に基づいた応答を提供し、検索能力を評価し、最終的な回答を生成するために必要な推論を評価するために設計された高品質な評価データセットです。これまでの研究では、これらの能力を個別に評価するためのデータセットやベンチマークが提供されてきましたが、FRAMESは、エンドツーエンドのRAGシナリオにおけるLLMsのパフォーマンスをより明確に示す統一されたフレームワークを提供しています。私たちのデータセットには、複数の情報源からの情報の統合を必要とする難解なマルチホップ質問が含まれています。私たちは、最先端のLLMsでさえこのタスクに苦労していることを示すベースライン結果を提示しました。これらのLLMsは、検索なしで0.40の精度を達成しています。私たちが提案するマルチステップ検索パイプラインにより、精度が著しく向上し、0.66の精度(50%以上の改善)が達成されました。私たちの研究が評価のギャップを埋め、より堅牢で能力の高いRAGシステムの開発を支援することを願っています。
English
Large Language Models (LLMs) have demonstrated significant performance improvements across various cognitive tasks. An emerging application is using LLMs to enhance retrieval-augmented generation (RAG) capabilities. These systems require LLMs to understand user queries, retrieve relevant information, and synthesize coherent and accurate responses. Given the increasing real-world deployment of such systems, comprehensive evaluation becomes crucial. To this end, we propose FRAMES (Factuality, Retrieval, And reasoning MEasurement Set), a high-quality evaluation dataset designed to test LLMs' ability to provide factual responses, assess retrieval capabilities, and evaluate the reasoning required to generate final answers. While previous work has provided datasets and benchmarks to evaluate these abilities in isolation, FRAMES offers a unified framework that provides a clearer picture of LLM performance in end-to-end RAG scenarios. Our dataset comprises challenging multi-hop questions that require the integration of information from multiple sources. We present baseline results demonstrating that even state-of-the-art LLMs struggle with this task, achieving 0.40 accuracy with no retrieval. The accuracy is significantly improved with our proposed multi-step retrieval pipeline, achieving an accuracy of 0.66 (>50% improvement). We hope our work will help bridge evaluation gaps and assist in developing more robust and capable RAG systems.

Summary

AI-Generated Summary

PDF253November 16, 2024