ChatPaper.aiChatPaper

Le benchmark d'intégration juridique massif (MLEB)

The Massive Legal Embedding Benchmark (MLEB)

October 22, 2025
papers.authors: Umar Butler, Abdur-Rahman Butler, Adrian Lucas Malec
cs.AI

papers.abstract

Nous présentons le Massive Legal Embedding Benchmark (MLEB), le benchmark open-source d'information juridique le plus vaste, le plus diversifié et le plus complet à ce jour. MLEB comprend dix jeux de données annotés par des experts, couvrant plusieurs juridictions (États-Unis, Royaume-Uni, UE, Australie, Irlande et Singapour), types de documents (arrêts, législation, directives réglementaires, contrats et doctrine) et types de tâches (recherche, classification zero-shot et question-réponse). Sept des jeux de données de MLEB ont été nouvellement constitués afin de combler les lacunes domainiales et juridictionnelles dans le paysage open-source de la recherche d'information juridique. Nous documentons notre méthodologie de construction de MLEB et de création des nouveaux jeux de données constitutifs, et publions ouvertement notre code, nos résultats et nos données pour faciliter les évaluations reproductibles.
English
We present the Massive Legal Embedding Benchmark (MLEB), the largest, most diverse, and most comprehensive open-source benchmark for legal information retrieval to date. MLEB consists of ten expert-annotated datasets spanning multiple jurisdictions (the US, UK, EU, Australia, Ireland, and Singapore), document types (cases, legislation, regulatory guidance, contracts, and literature), and task types (search, zero-shot classification, and question answering). Seven of the datasets in MLEB were newly constructed in order to fill domain and jurisdictional gaps in the open-source legal information retrieval landscape. We document our methodology in building MLEB and creating the new constituent datasets, and release our code, results, and data openly to assist with reproducible evaluations.
PDF175December 2, 2025