Legal RAG Bench: een end-to-end benchmark voor juridische RAG

Samenvatting

Wij introduceren Legal RAG Bench, een benchmark en evaluatiemethodologie voor het beoordelen van de end-to-end prestaties van juridische RAG-systemen. Als benchmark bestaat Legal RAG Bench uit 4.876 passages uit het Victorian Criminal Charge Book, samen met 100 complexe, handmatig opgestelde vragen die expertkennis van strafrecht en -proces vereisen. Er worden zowel uitgebreide antwoorden als ondersteunende passages geleverd. Als evaluatiemethodologie maakt Legal RAG Bench gebruik van een volledig factorieel ontwerp en een nieuw hiërarchisch kader voor foutdecompositie, waardoor appels-met-appels vergelijkingen mogelijk worden van de bijdragen van retrieval- en redeneermodellen in RAG. Wij evalueren drie state-of-the-art embeddingmodellen (Isaacus' Kanon 2 Embedder, Google's Gemini Embedding 001 en OpenAI's Text Embedding 3 Large) en twee frontier LLM's (Gemini 3.1 Pro en GPT-5.2), en concluderen dat informatie-retrieval de primaire drijvende kracht is van juridische RAG-prestaties, waarbij LLM's een gematigder effect hebben op correctheid en gegrondheid. Met name Kanon 2 Embedder had de grootste positieve impact op de prestaties, door de gemiddelde correctheid met 17,5 punten te verbeteren, gegrondheid met 4,5 punten en retrievalsucces met 34 punten. Wij observeren dat veel fouten die worden toegeschreven aan hallucinaties in juridische RAG-systemen in feite worden veroorzaakt door retrievalfouten, en concluderen dat retrieval de bovengrens bepaalt voor de prestaties van veel moderne juridische RAG-systemen. Wij documenteren waarom en hoe wij Legal RAG Bench hebben gebouwd, naast de resultaten van onze evaluaties. Wij geven onze code en data ook openbaar vrij om de reproductie van onze bevindingen te ondersteunen.

English

We introduce Legal RAG Bench, a benchmark and evaluation methodology for assessing the end-to-end performance of legal RAG systems. As a benchmark, Legal RAG Bench consists of 4,876 passages from the Victorian Criminal Charge Book alongside 100 complex, hand-crafted questions demanding expert knowledge of criminal law and procedure. Both long-form answers and supporting passages are provided. As an evaluation methodology, Legal RAG Bench leverages a full factorial design and novel hierarchical error decomposition framework, enabling apples-to-apples comparisons of the contributions of retrieval and reasoning models in RAG. We evaluate three state-of-the-art embedding models (Isaacus' Kanon 2 Embedder, Google's Gemini Embedding 001, and OpenAI's Text Embedding 3 Large) and two frontier LLMs (Gemini 3.1 Pro and GPT-5.2), finding that information retrieval is the primary driver of legal RAG performance, with LLMs exerting a more moderate effect on correctness and groundedness. Kanon 2 Embedder, in particular, had the largest positive impact on performance, improving average correctness by 17.5 points, groundedness by 4.5 points, and retrieval accuracy by 34 points. We observe that many errors attributed to hallucinations in legal RAG systems are in fact triggered by retrieval failures, concluding that retrieval sets the ceiling for the performance of many modern legal RAG systems. We document why and how we built Legal RAG Bench alongside the results of our evaluations. We also openly release our code and data to assist with reproduction of our findings.

Legal RAG Bench: een end-to-end benchmark voor juridische RAG

Legal RAG Bench: an end-to-end benchmark for legal RAG

Samenvatting

Support