OmniEval:金融領域における全方位および自動的なRAG評価ベンチマーク
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain
December 17, 2024
著者: Shuting Wang, Jiejun Tan, Zhicheng Dou, Ji-Rong Wen
cs.AI
要旨
大規模言語モデル(LLM)の典型的かつ実用的な応用として、Retrieval-Augmented Generation(RAG)技術は、特にLLMがドメイン固有の知識を欠いている垂直領域で広範な注目を集めています。本論文では、金融領域における全方位かつ自動的なRAGベンチマークであるOmniEvalを紹介します。当該ベンチマークは、(1) 5つのタスククラスと16の金融トピックにクエリを分類する行列ベースのRAGシナリオ評価システムを含む多次元評価フレームワークを特徴とし、多様なクエリシナリオの構造化された評価を実現します。(2) GPT-4ベースの自動生成と人間による注釈を組み合わせた多次元評価データ生成手法を採用し、生成されたインスタンスにおいて人間の評価において87.47%の受容率を達成します。(3) 検索と生成の両方のパフォーマンスを評価する多段階評価システムを導入し、RAGパイプラインの包括的な評価を実現します。(4) ルールベースとLLMベースの評価メトリクスから導出される頑健な評価メトリクスを採用し、LLM評価者の手動注釈と監督付きファインチューニングを通じて評価の信頼性を向上させます。当該実験は、OmniEvalの包括性を実証し、多様なトピックとタスクにわたるRAGシステムのパフォーマンスの変動を示し、垂直領域におけるRAGモデルの能力向上の重要な機会を明らかにします。当該ベンチマークのコードは、https://github.com/RUC-NLPIR/OmniEval{https://github.com/RUC-NLPIR/OmniEval} でオープンソース化されています。
English
As a typical and practical application of Large Language Models (LLMs),
Retrieval-Augmented Generation (RAG) techniques have gained extensive
attention, particularly in vertical domains where LLMs may lack domain-specific
knowledge. In this paper, we introduce an omnidirectional and automatic RAG
benchmark, OmniEval, in the financial domain. Our benchmark is characterized by
its multi-dimensional evaluation framework, including (1) a matrix-based RAG
scenario evaluation system that categorizes queries into five task classes and
16 financial topics, leading to a structured assessment of diverse query
scenarios; (2) a multi-dimensional evaluation data generation approach, which
combines GPT-4-based automatic generation and human annotation, achieving an
87.47\% acceptance ratio in human evaluations on generated instances; (3) a
multi-stage evaluation system that evaluates both retrieval and generation
performance, result in a comprehensive evaluation on the RAG pipeline; and (4)
robust evaluation metrics derived from rule-based and LLM-based ones, enhancing
the reliability of assessments through manual annotations and supervised
fine-tuning of an LLM evaluator. Our experiments demonstrate the
comprehensiveness of OmniEval, which includes extensive test datasets and
highlights the performance variations of RAG systems across diverse topics and
tasks, revealing significant opportunities for RAG models to improve their
capabilities in vertical domains. We open source the code of our benchmark in
https://github.com/RUC-NLPIR/OmniEval{https://github.com/RUC-NLPIR/OmniEval}.Summary
AI-Generated Summary