LOCUS로 법을 해방하다: 미국 지역 조례 말뭉치
Freeing the Law with LOCUS: A Local Ordinance Corpus for the United States
June 17, 2026
저자: Denis Peskoff, Joe Barrow, Christopher Vu, Diag Davenport
cs.AI
초록
법률 AI의 발전은 점점 더 방대한 규모의 권위 있는 법률 텍스트에 대한 접근에 의존하고 있다. 그러나 미국 법 체계에서 가장 중요한 층위 중 하나인 조례(ordinances)는 기존의 기계 판독 가능 코퍼스에서 거의 찾아볼 수 없는 실정이다. 지역 조례는 구역, 주택, 영업 허가, 공중 보건, 소음, 동물 규제 및 일상적인 규제의 다른 여러 영역을 규율하지만, 이는 대량 연구 접근보다는 인간의 열람을 위해 설계된 벤더 플랫폼에 분산되어 있다. 본 연구에서는 LOCUS(Local Ordinance Corpus for the United States), 즉 미국 지방 조례 코퍼스와 카운티 단위로 통합된 접근 레이어를 소개한다. 연구자에게 공개 가능한 원시 코퍼스는 공개적으로 이용 가능한 거의 모든 지방자치단체 및 카운티 조례를 대표하며, 결과적으로 9,239개 시와 카운티의 조례를 포함한다. 더 작은 규모의 카운티 통합 LOCUS 접근 레이어는 미국 3,144개 카운티 중 가장 큰 2,309개 카운티를 대상으로 하며, 이는 인구의 대다수를 차지한다. 법률이 공공 자원이 되는 것을 막아온 다양한 문서 형식을 처리하기 위해 OCR을 사용한다. 재현성, 차후 법률 AI 연구, 그리고 지역 법률에 대한 기계 판독 가능 접근의 점진적 확장을 지원하기 위해 커버리지 메타데이터와 함께 코퍼스를 공개한다. ModernBERT 기반의 분류기와 점수화기 집합을 학습시켜, 이전에는 이러한 규모로 연구된 적이 없는 불투명성(opacity)과 가부장제(paternalism) 등 여러 차원에서 미국 지역 법률을 분석할 수 있도록 했다. LOCUS-v1 및 파생 모델은 다음에서 확인할 수 있다: https://huggingface.co/datasets/LocalLaws/LOCUS-v1
English
Progress in legal AI increasingly depends on access to authoritative legal text at scale. Yet one of the most consequential layers of American law remains largely absent from existing machine-readable corpora: local ordinances. Local codes govern zoning, housing, business licensing, public health, noise, animal control, and many other domains of everyday regulation, but they are fragmented across vendor platforms designed for human browsing rather than bulk research access. We introduce LOCUS - the Local Ordinance Corpus for the United States - a comprehensive corpus and county-harmonized access layer for U.S. municipal and county ordinance codes. The raw corpus, available for release to researchers, represents nearly all publicly available municipal and county ordinance codes. The resulting raw corpus contains codes from 9,239 cities and counties. A smaller county-harmonized LOCUS access layer provides coverage for the largest 2,309 of 3,144 U.S. counties, accounting for a majority of the population. We use OCR to handle the myriad of document formats that have kept the law from being a public resource. We release the corpus with coverage metadata to support reproducibility, downstream legal AI research, and the incremental expansion of machine-readable access to local law. We train a collection of ModernBERT-based classifiers and scorers to facilitate analyzing U.S. local law among several dimensions, such as opacity and paternalism, that have not previously been studied at this scale. LOCUS-v1 and its derivative models are available at: https://huggingface.co/datasets/LocalLaws/LOCUS-v1