法務RAGベンチ:法務分野におけるエンドツーエンドRAG評価基準
Legal RAG Bench: an end-to-end benchmark for legal RAG
March 2, 2026
著者: Abdur-Rahman Butler, Umar Butler
cs.AI
要旨
本論文では、法律RAGシステムのエンドツーエンド性能を評価するためのベンチマークおよび評価手法であるLegal RAG Benchを提案する。ベンチマークとして、Legal RAG Benchは、Victorian Criminal Charge Bookからの4,876のパッセージと、刑法及び手続きに関する専門知識を要する100の複雑な手作りの質問群で構成される。長文回答と支持パッセージの両方が提供されている。評価手法として、Legal RAG Benchは完全要因計画と新規の階層的誤り分解フレームワークを活用し、RAGにおける検索モデルと推論モデルの貢献度を公平に比較することを可能にする。我々は、3つの最先端の埋め込みモデル(Isaacus社のKanon 2 Embedder、Google社のGemini Embedding 001、OpenAI社のText Embedding 3 Large)と2つのフロンティアLLM(Gemini 3.1 ProおよびGPT-5.2)を評価し、情報検索が法律RAGの性能の主要な決定要因であり、LLMは正確性と接地性に対してより穏やかな影響を及ぼすことを明らかにした。特にKanon 2 Embedderは性能に最大の正の影響を与え、平均正確性を17.5ポイント、接地性を4.5ポイント、検索精度を34ポイント向上させた。法律RAGシステムで幻覚に起因するとされる誤りの多くは、実際には検索の失敗によって引き起こされていることを観察し、検索が多くの現代的な法律RAGシステムの性能上限を決定すると結論付ける。我々は、Legal RAG Benchを構築した理由と方法、並びに評価結果を文書化する。また、知見の再現を支援するため、コードとデータを公開する。
English
We introduce Legal RAG Bench, a benchmark and evaluation methodology for assessing the end-to-end performance of legal RAG systems. As a benchmark, Legal RAG Bench consists of 4,876 passages from the Victorian Criminal Charge Book alongside 100 complex, hand-crafted questions demanding expert knowledge of criminal law and procedure. Both long-form answers and supporting passages are provided. As an evaluation methodology, Legal RAG Bench leverages a full factorial design and novel hierarchical error decomposition framework, enabling apples-to-apples comparisons of the contributions of retrieval and reasoning models in RAG. We evaluate three state-of-the-art embedding models (Isaacus' Kanon 2 Embedder, Google's Gemini Embedding 001, and OpenAI's Text Embedding 3 Large) and two frontier LLMs (Gemini 3.1 Pro and GPT-5.2), finding that information retrieval is the primary driver of legal RAG performance, with LLMs exerting a more moderate effect on correctness and groundedness. Kanon 2 Embedder, in particular, had the largest positive impact on performance, improving average correctness by 17.5 points, groundedness by 4.5 points, and retrieval accuracy by 34 points. We observe that many errors attributed to hallucinations in legal RAG systems are in fact triggered by retrieval failures, concluding that retrieval sets the ceiling for the performance of many modern legal RAG systems. We document why and how we built Legal RAG Bench alongside the results of our evaluations. We also openly release our code and data to assist with reproduction of our findings.