Освобождение закона с помощью LOCUS: Корпус местных постановлений для Соединенных Штатов
Freeing the Law with LOCUS: A Local Ordinance Corpus for the United States
June 17, 2026
Авторы: Denis Peskoff, Joe Barrow, Christopher Vu, Diag Davenport
cs.AI
Аннотация
Прогресс в области юридического искусственного интеллекта всё больше зависит от доступа к авторитетным юридическим текстам в масштабе. Однако один из наиболее значимых уровней американского права по-прежнему почти не представлен в существующих машиночитаемых корпусах: местные постановления. Местные кодексы регулируют зонирование, жильё, лицензирование бизнеса, общественное здравоохранение, шум, контроль за животными и многие другие сферы повседневного регулирования, но они раздроблены по платформам поставщиков, предназначенным для просмотра человеком, а не для массового исследовательского доступа. Мы представляем LOCUS — корпус местных постановлений для Соединённых Штатов (Local Ordinance Corpus for the United States) — всеобъемлющий корпус и согласованный на уровне округов слой доступа для муниципальных и окружных кодексов постановлений США. Сырой корпус, доступный для исследователей, охватывает практически все общедоступные муниципальные и окружные кодексы постановлений. Полученный сырой корпус содержит кодексы из 9 239 городов и округов. Меньший согласованный на уровне округов слой доступа LOCUS обеспечивает покрытие для 2 309 из 3 144 крупнейших округов США, что составляет большинство населения. Мы используем OCR для обработки множества форматов документов, которые препятствовали тому, чтобы право стало общедоступным ресурсом. Мы публикуем корпус с метаданными о покрытии для поддержки воспроизводимости, последующих исследований в области юридического ИИ и постепенного расширения машиночитаемого доступа к местному праву. Мы обучаем набор классификаторов и скоринговых моделей на основе ModernBERT для анализа местного права США по нескольким измерениям, таким как непрозрачность и патернализм, которые ранее не изучались в таком масштабе. LOCUS-v1 и его производные модели доступны по адресу: https://huggingface.co/datasets/LocalLaws/LOCUS-v1
English
Progress in legal AI increasingly depends on access to authoritative legal text at scale. Yet one of the most consequential layers of American law remains largely absent from existing machine-readable corpora: local ordinances. Local codes govern zoning, housing, business licensing, public health, noise, animal control, and many other domains of everyday regulation, but they are fragmented across vendor platforms designed for human browsing rather than bulk research access. We introduce LOCUS - the Local Ordinance Corpus for the United States - a comprehensive corpus and county-harmonized access layer for U.S. municipal and county ordinance codes. The raw corpus, available for release to researchers, represents nearly all publicly available municipal and county ordinance codes. The resulting raw corpus contains codes from 9,239 cities and counties. A smaller county-harmonized LOCUS access layer provides coverage for the largest 2,309 of 3,144 U.S. counties, accounting for a majority of the population. We use OCR to handle the myriad of document formats that have kept the law from being a public resource. We release the corpus with coverage metadata to support reproducibility, downstream legal AI research, and the incremental expansion of machine-readable access to local law. We train a collection of ModernBERT-based classifiers and scorers to facilitate analyzing U.S. local law among several dimensions, such as opacity and paternalism, that have not previously been studied at this scale. LOCUS-v1 and its derivative models are available at: https://huggingface.co/datasets/LocalLaws/LOCUS-v1