Il Benchmark di Embedding Legale Massivo (MLEB)
The Massive Legal Embedding Benchmark (MLEB)
October 22, 2025
Autori: Umar Butler, Abdur-Rahman Butler, Adrian Lucas Malec
cs.AI
Abstract
Presentiamo il Massive Legal Embedding Benchmark (MLEB), il benchmark open-source per il recupero di informazioni legali più vasto, diversificato e completo realizzato fino ad oggi. MLEB comprende dieci dataset annotati da esperti, che abbracciano molteplici giurisdizioni (USA, Regno Unito, UE, Australia, Irlanda e Singapore), tipologie documentali (sentenze, legislazione, linee guida normative, contratti e letteratura) e tipi di attività (ricerca, classificazione zero-shot e question answering). Sette dei dataset in MLEB sono stati appositamente costruiti per colmare lacune di dominio e giurisdizionali nel panorama open-source del recupero di informazioni legali. Documentiamo la nostra metodologia nella costruzione di MLEB e nella creazione dei nuovi dataset costituenti, e rilasciamo apertamente codice, risultati e dati per facilitare valutazioni riproducibili.
English
We present the Massive Legal Embedding Benchmark (MLEB), the largest, most
diverse, and most comprehensive open-source benchmark for legal information
retrieval to date. MLEB consists of ten expert-annotated datasets spanning
multiple jurisdictions (the US, UK, EU, Australia, Ireland, and Singapore),
document types (cases, legislation, regulatory guidance, contracts, and
literature), and task types (search, zero-shot classification, and question
answering). Seven of the datasets in MLEB were newly constructed in order to
fill domain and jurisdictional gaps in the open-source legal information
retrieval landscape. We document our methodology in building MLEB and creating
the new constituent datasets, and release our code, results, and data openly to
assist with reproducible evaluations.