Legal RAG Bench : un benchmark de bout en bout pour le RAG juridique

Résumé

Nous présentons Legal RAG Bench, un benchmark et une méthodologie d'évaluation pour mesurer la performance de bout en bout des systèmes RAG juridiques. En tant que benchmark, Legal RAG Bench se compose de 4 876 passages issus du Victorian Criminal Charge Book, accompagnés de 100 questions complexes et élaborées manuellement, qui exigent une connaissance experte du droit pénal et de la procédure. Des réponses détaillées et les passages de référence sont fournis. En tant que méthodologie d'évaluation, Legal RAG Bench s'appuie sur un plan factoriel complet et un nouveau cadre de décomposition hiérarchique des erreurs, permettant des comparaisons équitables des contributions des modèles de recherche et de raisonnement dans les systèmes RAG. Nous évaluons trois modèles de plongement lexicaux de pointe (Kanon 2 Embedder d'Isaacus, Gemini Embedding 001 de Google et Text Embedding 3 Large d'OpenAI) et deux LLM frontaliers (Gemini 3.1 Pro et GPT-5.2), constatant que la recherche d'information est le principal facteur de performance des systèmes RAG juridiques, les LLM ayant un effet plus modéré sur l'exactitude et l'enracinement. Kanon 2 Embedder, en particulier, a eu l'impact positif le plus important sur les performances, améliorant l'exactitude moyenne de 17,5 points, l'enracinement de 4,5 points et la précision de la recherche de 34 points. Nous observons que de nombreuses erreurs attribuées à des hallucinations dans les systèmes RAG juridiques sont en réalité déclenchées par des échecs de recherche, concluant que la recherche fixe le plafond de performance de nombreux systèmes RAG juridiques modernes. Nous documentons les raisons et la méthode de construction de Legal RAG Bench ainsi que les résultats de nos évaluations. Nous publions également ouvertement notre code et nos données pour faciliter la reproduction de nos résultats.

English

We introduce Legal RAG Bench, a benchmark and evaluation methodology for assessing the end-to-end performance of legal RAG systems. As a benchmark, Legal RAG Bench consists of 4,876 passages from the Victorian Criminal Charge Book alongside 100 complex, hand-crafted questions demanding expert knowledge of criminal law and procedure. Both long-form answers and supporting passages are provided. As an evaluation methodology, Legal RAG Bench leverages a full factorial design and novel hierarchical error decomposition framework, enabling apples-to-apples comparisons of the contributions of retrieval and reasoning models in RAG. We evaluate three state-of-the-art embedding models (Isaacus' Kanon 2 Embedder, Google's Gemini Embedding 001, and OpenAI's Text Embedding 3 Large) and two frontier LLMs (Gemini 3.1 Pro and GPT-5.2), finding that information retrieval is the primary driver of legal RAG performance, with LLMs exerting a more moderate effect on correctness and groundedness. Kanon 2 Embedder, in particular, had the largest positive impact on performance, improving average correctness by 17.5 points, groundedness by 4.5 points, and retrieval accuracy by 34 points. We observe that many errors attributed to hallucinations in legal RAG systems are in fact triggered by retrieval failures, concluding that retrieval sets the ceiling for the performance of many modern legal RAG systems. We document why and how we built Legal RAG Bench alongside the results of our evaluations. We also openly release our code and data to assist with reproduction of our findings.

Legal RAG Bench : un benchmark de bout en bout pour le RAG juridique

Legal RAG Bench: an end-to-end benchmark for legal RAG

Résumé

Support