ChatPaper.aiChatPaper

大規模法文書埋め込みベンチマーク(MLEB)

The Massive Legal Embedding Benchmark (MLEB)

October 22, 2025
著者: Umar Butler, Abdur-Rahman Butler, Adrian Lucas Malec
cs.AI

要旨

本論文では、Massive Legal Embedding Benchmark(MLEB)を提案する。これは、法情報検索におけるオープンソースのベンチマークとして、現在までで最大規模かつ最も多様性に富み、包括的なものである。MLEBは、複数の法域(米国、英国、EU、オーストラリア、アイルランド、シンガポール)、文書タイプ(判例、法令、規制ガイダンス、契約書、学術文献)、タスクタイプ(検索、ゼロショット分類、質問応答)にまたがる10の専門家による注釈付きデータセットで構成される。MLEBに含まれる7つのデータセットは、オープンソースの法情報検索環境における領域的・法域的なギャップを埋めるために新たに構築された。我々はMLEBの構築と新規構成データセット作成の方法論を詳細に記述し、再現可能な評価を支援するため、コード、結果、データを公開する。
English
We present the Massive Legal Embedding Benchmark (MLEB), the largest, most diverse, and most comprehensive open-source benchmark for legal information retrieval to date. MLEB consists of ten expert-annotated datasets spanning multiple jurisdictions (the US, UK, EU, Australia, Ireland, and Singapore), document types (cases, legislation, regulatory guidance, contracts, and literature), and task types (search, zero-shot classification, and question answering). Seven of the datasets in MLEB were newly constructed in order to fill domain and jurisdictional gaps in the open-source legal information retrieval landscape. We document our methodology in building MLEB and creating the new constituent datasets, and release our code, results, and data openly to assist with reproducible evaluations.
PDF175December 2, 2025