LOCUSによる法の解放:米国向け地方条例コーパス
Freeing the Law with LOCUS: A Local Ordinance Corpus for the United States
June 17, 2026
著者: Denis Peskoff, Joe Barrow, Christopher Vu, Diag Davenport
cs.AI
要旨
法域AIの進展は、権威ある法テキストへの大規模なアクセスに依存する度合いを強めている。しかしながら、既存の機械可読コーパスでは、アメリカ法の最も重要な層の一つである地方法令がほぼ欠落している。地方条例は、ゾーニング、住宅、事業許認可、公衆衛生、騒音、動物管理など、日常生活の規制の多くの領域を統治しているが、人間が閲覧するために設計されたベンダープラットフォーム上に分散しており、一括研究目的でのアクセスには適していない。本稿では、LOCUS(Local Ordinance Corpus for the United States)を紹介する。これは、米国の市および郡の条例コードを対象とした包括的コーパスであり、郡単位で調和化されたアクセス層を提供するものである。研究者への公開が予定されている生のコーパスは、公開されているほぼすべての市および郡の条例コードを網羅しており、結果として9,239の市および郡の条例コードが含まれている。より小規模な郡調和化LOCUSアクセス層は、全3,144郡のうち最大の2,309郡をカバーし、人口の過半数を占める。我々は、法を公共リソース化することを阻んできた多種多様な文書形式に対処するためにOCRを採用した。再現可能性、下流の法域AI研究、およびローカル法への機械可読アクセスの段階的拡大を支援するため、カバレッジメタデータとともにコーパスを公開する。さらに、これまでこの規模では研究されてこなかった不透明性やパターナリズムといった複数の観点から米国地方法を分析するために、モダンBERTベースの分類器およびスコアラーを複数訓練した。LOCUS-v1およびその派生モデルは、https://huggingface.co/datasets/LocalLaws/LOCUS-v1 で入手可能である。
English
Progress in legal AI increasingly depends on access to authoritative legal text at scale. Yet one of the most consequential layers of American law remains largely absent from existing machine-readable corpora: local ordinances. Local codes govern zoning, housing, business licensing, public health, noise, animal control, and many other domains of everyday regulation, but they are fragmented across vendor platforms designed for human browsing rather than bulk research access. We introduce LOCUS - the Local Ordinance Corpus for the United States - a comprehensive corpus and county-harmonized access layer for U.S. municipal and county ordinance codes. The raw corpus, available for release to researchers, represents nearly all publicly available municipal and county ordinance codes. The resulting raw corpus contains codes from 9,239 cities and counties. A smaller county-harmonized LOCUS access layer provides coverage for the largest 2,309 of 3,144 U.S. counties, accounting for a majority of the population. We use OCR to handle the myriad of document formats that have kept the law from being a public resource. We release the corpus with coverage metadata to support reproducibility, downstream legal AI research, and the incremental expansion of machine-readable access to local law. We train a collection of ModernBERT-based classifiers and scorers to facilitate analyzing U.S. local law among several dimensions, such as opacity and paternalism, that have not previously been studied at this scale. LOCUS-v1 and its derivative models are available at: https://huggingface.co/datasets/LocalLaws/LOCUS-v1