법률 RAG 벤치: 법률 RAG를 위한 종단간 벤치마크
Legal RAG Bench: an end-to-end benchmark for legal RAG
March 2, 2026
저자: Abdur-Rahman Butler, Umar Butler
cs.AI
초록
본 논문에서는 법률 RAG 시스템의 종단간 성능을 평가하기 위한 벤치마크 및 평가 방법론인 Legal RAG Bench를 소개한다. 벤치마크로서 Legal RAG Bench는 빅토리아 형사 기소 핸드북에서 추출한 4,876개의 패시지와 형사법 및 절차에 대한 전문 지식을 요구하는 100개의 복잡한 수작업 질문으로 구성된다. 장문 형식의 답변과 지원 패시지가 모두 제공된다. 평가 방법론으로서 Legal RAG Bench는 완전 요인 설계와 새로운 계층적 오류 분해 프레임워크를 활용하여 RAG 내 검색 및 추론 모델의 기여도를 공정하게 비교할 수 있도록 한다. 우리는 3개의 최첨단 임베딩 모델(Isaacus의 Kanon 2 Embedder, Google의 Gemini Embedding 001, OpenAI의 Text Embedding 3 Large)과 2개의 최신 LLM(Gemini 3.1 Pro 및 GPT-5.2)을 평가한 결과, 정보 검색이 법률 RAG 성능의 주요 동인이며 LLM은 정확성과 근거성에 상대적으로 적은 영향을 미치는 것으로 나타났다. 특히 Kanon 2 Embedder는 성능에 가장 큰 긍정적 영향을 미쳐 평균 정확도를 17.5점, 근거성을 4.5점, 검색 정확도를 34점 향상시켰다. 법률 RAG 시스템에서 환영으로 귀결되는 많은 오류가 사실은 검색 실패에 의해 유발된다는 점을 확인함으로써, 검색이 많은 현대 법률 RAG 시스템의 성능 상한선을 결정한다는 결론을 내린다. 우리는 평가 결과와 함께 Legal RAG Bench를 구축한 이유와 방법을 상세히 기록한다. 또한 연구 결과의 재현성을 지원하기 위해 코드와 데이터를 공개한다.
English
We introduce Legal RAG Bench, a benchmark and evaluation methodology for assessing the end-to-end performance of legal RAG systems. As a benchmark, Legal RAG Bench consists of 4,876 passages from the Victorian Criminal Charge Book alongside 100 complex, hand-crafted questions demanding expert knowledge of criminal law and procedure. Both long-form answers and supporting passages are provided. As an evaluation methodology, Legal RAG Bench leverages a full factorial design and novel hierarchical error decomposition framework, enabling apples-to-apples comparisons of the contributions of retrieval and reasoning models in RAG. We evaluate three state-of-the-art embedding models (Isaacus' Kanon 2 Embedder, Google's Gemini Embedding 001, and OpenAI's Text Embedding 3 Large) and two frontier LLMs (Gemini 3.1 Pro and GPT-5.2), finding that information retrieval is the primary driver of legal RAG performance, with LLMs exerting a more moderate effect on correctness and groundedness. Kanon 2 Embedder, in particular, had the largest positive impact on performance, improving average correctness by 17.5 points, groundedness by 4.5 points, and retrieval accuracy by 34 points. We observe that many errors attributed to hallucinations in legal RAG systems are in fact triggered by retrieval failures, concluding that retrieval sets the ceiling for the performance of many modern legal RAG systems. We document why and how we built Legal RAG Bench alongside the results of our evaluations. We also openly release our code and data to assist with reproduction of our findings.