ChatPaper.aiChatPaper

De Massive Legal Embedding Benchmark (MLEB)

The Massive Legal Embedding Benchmark (MLEB)

October 22, 2025
Auteurs: Umar Butler, Abdur-Rahman Butler, Adrian Lucas Malec
cs.AI

Samenvatting

Wij presenteren de Massive Legal Embedding Benchmark (MLEB), de grootste, meest diverse en meest uitgebreide open-source benchmark voor juridische informatie-retrieval tot op heden. MLEB bestaat uit tien door experts geannoteerde datasets die meerdere rechtsgebieden omvatten (de VS, het VK, de EU, Australië, Ierland en Singapore), documenttypen (rechtspraak, wetgeving, regelgevende richtsnoeren, contracten en literatuur) en taaktypen (zoeken, zero-shot classificatie en vraag-antwoordtaken). Zeven van de datasets in MLEB werden nieuw geconstrueerd om de domein- en jurisdictiegerelateerde hiaten in het open-source landschap voor juridische informatie-retrieval op te vullen. Wij documenteren onze methodologie voor het opbouwen van MLEB en het creëren van de nieuwe samenstellende datasets, en stellen onze code, resultaten en data openbaar beschikbaar om reproduceerbare evaluaties te ondersteunen.
English
We present the Massive Legal Embedding Benchmark (MLEB), the largest, most diverse, and most comprehensive open-source benchmark for legal information retrieval to date. MLEB consists of ten expert-annotated datasets spanning multiple jurisdictions (the US, UK, EU, Australia, Ireland, and Singapore), document types (cases, legislation, regulatory guidance, contracts, and literature), and task types (search, zero-shot classification, and question answering). Seven of the datasets in MLEB were newly constructed in order to fill domain and jurisdictional gaps in the open-source legal information retrieval landscape. We document our methodology in building MLEB and creating the new constituent datasets, and release our code, results, and data openly to assist with reproducible evaluations.
PDF175December 2, 2025