El Punto de Referencia Masivo de Incrustaciones Legales (MLEB)
The Massive Legal Embedding Benchmark (MLEB)
October 22, 2025
Autores: Umar Butler, Abdur-Rahman Butler, Adrian Lucas Malec
cs.AI
Resumen
Presentamos el Massive Legal Embedding Benchmark (MLEB), el benchmark de código abierto para recuperación de información legal más extenso, diverso y completo hasta la fecha. MLEB consta de diez conjuntos de datos anotados por expertos que abarcan múltiples jurisdicciones (EE. UU., Reino Unido, UE, Australia, Irlanda y Singapur), tipos de documentos (sentencias, legislación, directrices regulatorias, contratos y literatura) y tipos de tareas (búsqueda, clasificación zero-shot y respuesta a preguntas). Siete de los conjuntos de datos en MLEB fueron construidos recientemente para llenar vacíos de dominio y jurisdiccionales en el panorama de la recuperación de información legal de código abierto. Documentamos nuestra metodología para construir MLEB y crear los nuevos conjuntos de datos constituyentes, y publicamos abiertamente nuestro código, resultados y datos para facilitar evaluaciones reproducibles.
English
We present the Massive Legal Embedding Benchmark (MLEB), the largest, most
diverse, and most comprehensive open-source benchmark for legal information
retrieval to date. MLEB consists of ten expert-annotated datasets spanning
multiple jurisdictions (the US, UK, EU, Australia, Ireland, and Singapore),
document types (cases, legislation, regulatory guidance, contracts, and
literature), and task types (search, zero-shot classification, and question
answering). Seven of the datasets in MLEB were newly constructed in order to
fill domain and jurisdictional gaps in the open-source legal information
retrieval landscape. We document our methodology in building MLEB and creating
the new constituent datasets, and release our code, results, and data openly to
assist with reproducible evaluations.