Le benchmark d'intégration juridique massif (MLEB)
The Massive Legal Embedding Benchmark (MLEB)
October 22, 2025
papers.authors: Umar Butler, Abdur-Rahman Butler, Adrian Lucas Malec
cs.AI
papers.abstract
Nous présentons le Massive Legal Embedding Benchmark (MLEB), le benchmark open-source d'information juridique le plus vaste, le plus diversifié et le plus complet à ce jour. MLEB comprend dix jeux de données annotés par des experts, couvrant plusieurs juridictions (États-Unis, Royaume-Uni, UE, Australie, Irlande et Singapour), types de documents (arrêts, législation, directives réglementaires, contrats et doctrine) et types de tâches (recherche, classification zero-shot et question-réponse). Sept des jeux de données de MLEB ont été nouvellement constitués afin de combler les lacunes domainiales et juridictionnelles dans le paysage open-source de la recherche d'information juridique. Nous documentons notre méthodologie de construction de MLEB et de création des nouveaux jeux de données constitutifs, et publions ouvertement notre code, nos résultats et nos données pour faciliter les évaluations reproductibles.
English
We present the Massive Legal Embedding Benchmark (MLEB), the largest, most
diverse, and most comprehensive open-source benchmark for legal information
retrieval to date. MLEB consists of ten expert-annotated datasets spanning
multiple jurisdictions (the US, UK, EU, Australia, Ireland, and Singapore),
document types (cases, legislation, regulatory guidance, contracts, and
literature), and task types (search, zero-shot classification, and question
answering). Seven of the datasets in MLEB were newly constructed in order to
fill domain and jurisdictional gaps in the open-source legal information
retrieval landscape. We document our methodology in building MLEB and creating
the new constituent datasets, and release our code, results, and data openly to
assist with reproducible evaluations.