Legal RAG Bench: Ein End-to-End-Benchmark für Legal RAG

Zusammenfassung

Wir stellen Legal RAG Bench vor, einen Benchmark und eine Evaluierungsmethodik zur Bewertung der End-to-End-Leistung von juristischen RAG-Systemen. Als Benchmark besteht Legal RAG Bench aus 4.876 Textpassagen aus dem Victorian Criminal Charge Book sowie 100 komplexen, handgefertigten Fragen, die Expertenwissen im Strafrecht und -verfahren erfordern. Sowohl Langform-Antworten als auch unterstützende Textpassagen werden bereitgestellt. Als Evaluierungsmethodik nutzt Legal RAG Bench ein vollfaktorielles Design und einen neuartigen hierarchischen Fehlerzerlegungsrahmen, der direkte Vergleichbarkeit der Beiträge von Retrieval- und Reasoning-Modellen in RAG-Systemen ermöglicht. Wir evaluieren drei state-of-the-art Embedding-Modelle (Isaacus' Kanon 2 Embedder, Googles Gemini Embedding 001 und OpenAIs Text Embedding 3 Large) und zwei führende LLMs (Gemini 3.1 Pro und GPT-5.2) und stellen fest, dass die Informationsbeschaffung der primäre Treiber für die Leistung juristischer RAG-Systeme ist, während LLMs einen moderateren Einfluss auf Korrektheit und Fundiertheit ausüben. Der Kanon 2 Embedder hatte insbesondere den größten positiven Einfluss auf die Leistung und verbesserte die durchschnittliche Korrektheit um 17,5 Punkte, die Fundiertheit um 4,5 Punkte und die Retrieval-Genauigkeit um 34 Punkte. Wir beobachten, dass viele Fehler, die Halluzinationen in juristischen RAG-Systemen zugeschrieben werden, tatsächlich durch Retrieval-Fehler ausgelöst werden, und schlussfolgern, dass das Retrieval die Obergrenze für die Leistung vieler moderner juristischer RAG-Systeme setzt. Wir dokumentieren, warum und wie wir Legal RAG Bench aufgebaut haben, zusammen mit den Ergebnissen unserer Evaluationen. Wir veröffentlichen auch unseren Code und unsere Daten offen, um die Reproduktion unserer Ergebnisse zu unterstützen.

English

We introduce Legal RAG Bench, a benchmark and evaluation methodology for assessing the end-to-end performance of legal RAG systems. As a benchmark, Legal RAG Bench consists of 4,876 passages from the Victorian Criminal Charge Book alongside 100 complex, hand-crafted questions demanding expert knowledge of criminal law and procedure. Both long-form answers and supporting passages are provided. As an evaluation methodology, Legal RAG Bench leverages a full factorial design and novel hierarchical error decomposition framework, enabling apples-to-apples comparisons of the contributions of retrieval and reasoning models in RAG. We evaluate three state-of-the-art embedding models (Isaacus' Kanon 2 Embedder, Google's Gemini Embedding 001, and OpenAI's Text Embedding 3 Large) and two frontier LLMs (Gemini 3.1 Pro and GPT-5.2), finding that information retrieval is the primary driver of legal RAG performance, with LLMs exerting a more moderate effect on correctness and groundedness. Kanon 2 Embedder, in particular, had the largest positive impact on performance, improving average correctness by 17.5 points, groundedness by 4.5 points, and retrieval accuracy by 34 points. We observe that many errors attributed to hallucinations in legal RAG systems are in fact triggered by retrieval failures, concluding that retrieval sets the ceiling for the performance of many modern legal RAG systems. We document why and how we built Legal RAG Bench alongside the results of our evaluations. We also openly release our code and data to assist with reproduction of our findings.

Legal RAG Bench: Ein End-to-End-Benchmark für Legal RAG

Legal RAG Bench: an end-to-end benchmark for legal RAG

Zusammenfassung

Support