Liberando a Lei com LOCUS: Um Corpus de Ordenanças Locais para os Estados Unidos
Freeing the Law with LOCUS: A Local Ordinance Corpus for the United States
June 17, 2026
Autores: Denis Peskoff, Joe Barrow, Christopher Vu, Diag Davenport
cs.AI
Resumo
O progresso em IA jurídica depende cada vez mais do acesso a textos legais autoritativos em larga escala. No entanto, uma das camadas mais consequentes do direito americano permanece amplamente ausente dos corpora legíveis por máquina existentes: as portarias locais. Os códigos municipais regulamentam zoneamento, habitação, licenciamento comercial, saúde pública, ruído, controle animal e muitos outros domínios da regulação cotidiana, mas estão fragmentados em plataformas de fornecedores projetadas para navegação humana, e não para acesso em massa à pesquisa. Apresentamos o LOCUS - Corpus de Portarias Locais para os Estados Unidos -, um corpus abrangente e uma camada de acesso harmonizada por condado para códigos municipais e de condados dos EUA. O corpus bruto, disponível para distribuição a pesquisadores, representa praticamente todos os códigos municipais e de condados publicamente acessíveis. O corpus bruto resultante contém códigos de 9.239 cidades e condados. Uma camada de acesso LOCUS menor, harmonizada por condado, oferece cobertura para os 2.309 maiores dos 3.144 condados americanos, abrangendo a maioria da população. Utilizamos OCR para lidar com a miríade de formatos documentais que mantiveram a lei afastada de ser um recurso público. Disponibilizamos o corpus com metadados de cobertura para apoiar a reprodutibilidade, a pesquisa downstream em IA jurídica e a expansão incremental do acesso legível por máquina ao direito local. Treinamos um conjunto de classificadores e pontuadores baseados em ModernBERT para facilitar a análise do direito local americano sob diversas dimensões, como opacidade e paternalismo, que não foram previamente estudadas nessa escala. O LOCUS-v1 e seus modelos derivados estão disponíveis em: https://huggingface.co/datasets/LocalLaws/LOCUS-v1
English
Progress in legal AI increasingly depends on access to authoritative legal text at scale. Yet one of the most consequential layers of American law remains largely absent from existing machine-readable corpora: local ordinances. Local codes govern zoning, housing, business licensing, public health, noise, animal control, and many other domains of everyday regulation, but they are fragmented across vendor platforms designed for human browsing rather than bulk research access. We introduce LOCUS - the Local Ordinance Corpus for the United States - a comprehensive corpus and county-harmonized access layer for U.S. municipal and county ordinance codes. The raw corpus, available for release to researchers, represents nearly all publicly available municipal and county ordinance codes. The resulting raw corpus contains codes from 9,239 cities and counties. A smaller county-harmonized LOCUS access layer provides coverage for the largest 2,309 of 3,144 U.S. counties, accounting for a majority of the population. We use OCR to handle the myriad of document formats that have kept the law from being a public resource. We release the corpus with coverage metadata to support reproducibility, downstream legal AI research, and the incremental expansion of machine-readable access to local law. We train a collection of ModernBERT-based classifiers and scorers to facilitate analyzing U.S. local law among several dimensions, such as opacity and paternalism, that have not previously been studied at this scale. LOCUS-v1 and its derivative models are available at: https://huggingface.co/datasets/LocalLaws/LOCUS-v1