O Benchmark de Incorporação Jurídica em Massa (MLEB)
The Massive Legal Embedding Benchmark (MLEB)
October 22, 2025
Autores: Umar Butler, Abdur-Rahman Butler, Adrian Lucas Malec
cs.AI
Resumo
Apresentamos o Massive Legal Embedding Benchmark (MLEB), o *benchmark* de código aberto para recuperação de informação jurídica mais extenso, diversificado e abrangente até à data. O MLEB é composto por dez conjuntos de dados anotados por especialistas, abrangendo múltiplas jurisdições (EUA, Reino Unido, UE, Austrália, Irlanda e Singapura), tipos de documentos (processos judiciais, legislação, orientações regulamentares, contratos e literatura) e tipos de tarefas (busca, classificação *zero-shot* e resposta a perguntas). Sete dos conjuntos de dados do MLEB foram construídos recentemente para preencher lacunas de domínio e jurisdição no panorama de código aberto da recuperação de informação jurídica. Documentamos a nossa metodologia na construção do MLEB e na criação dos novos conjuntos de dados constituintes, e disponibilizamos abertamente o nosso código, resultados e dados para auxiliar em avaliações reproduzíveis.
English
We present the Massive Legal Embedding Benchmark (MLEB), the largest, most
diverse, and most comprehensive open-source benchmark for legal information
retrieval to date. MLEB consists of ten expert-annotated datasets spanning
multiple jurisdictions (the US, UK, EU, Australia, Ireland, and Singapore),
document types (cases, legislation, regulatory guidance, contracts, and
literature), and task types (search, zero-shot classification, and question
answering). Seven of the datasets in MLEB were newly constructed in order to
fill domain and jurisdictional gaps in the open-source legal information
retrieval landscape. We document our methodology in building MLEB and creating
the new constituent datasets, and release our code, results, and data openly to
assist with reproducible evaluations.