Het vrijgeven van de wet met LOCUS: Een corpus van lokale verordeningen voor de Verenigde Staten
Freeing the Law with LOCUS: A Local Ordinance Corpus for the United States
June 17, 2026
Auteurs: Denis Peskoff, Joe Barrow, Christopher Vu, Diag Davenport
cs.AI
Samenvatting
Voortgang in juridische AI is steeds meer afhankelijk van toegang tot gezaghebbende juridische teksten op grote schaal. Toch ontbreekt een van de meest consequente lagen van het Amerikaanse recht grotendeels in bestaande machineleesbare corpora: lokale verordeningen. Lokale codes reguleren zaken als bestemmingsplannen, huisvesting, bedrijfsvergunningen, volksgezondheid, geluidsoverlast, dierenbeheer en vele andere domeinen van alledaagse regelgeving, maar ze zijn versnipperd over leveranciersplatformen die zijn ontworpen voor menselijk browsen in plaats van bulkonderzoekstoegang. We introduceren LOCUS – het Local Ordinance Corpus voor de Verenigde Staten – een uitgebreid corpus en een op county-niveau geharmoniseerde toegangslaag voor Amerikaanse gemeentelijke en county-verordeningencodes. Het ruwe corpus, beschikbaar voor vrijgave aan onderzoekers, vertegenwoordigt vrijwel alle openbaar beschikbare gemeentelijke en county-verordeningencodes. Het resulterende ruwe corpus bevat codes van 9.239 steden en county's. Een kleinere, op county-niveau geharmoniseerde LOCUS-toegangslaag biedt dekking voor de grootste 2.309 van de 3.144 Amerikaanse county's, die een meerderheid van de bevolking vertegenwoordigen. We gebruiken OCR om de talloze documentformaten te verwerken die ervoor hebben gezorgd dat de wet geen publieke hulpbron was. We geven het corpus vrij met dekkingsmetadata om reproduceerbaarheid, downstream juridisch AI-onderzoek en de stapsgewijze uitbreiding van machineleesbare toegang tot het lokale recht te ondersteunen. We trainen een verzameling op ModernBERT gebaseerde classificatoren en scorers om het analyseren van het Amerikaanse lokale recht langs verschillende dimensies, zoals ondoorzichtigheid en paternalisme, te vergemakkelijken – dimensies die op deze schaal nog niet eerder zijn bestudeerd. LOCUS-v1 en de afgeleide modellen zijn beschikbaar op: https://huggingface.co/datasets/LocalLaws/LOCUS-v1
English
Progress in legal AI increasingly depends on access to authoritative legal text at scale. Yet one of the most consequential layers of American law remains largely absent from existing machine-readable corpora: local ordinances. Local codes govern zoning, housing, business licensing, public health, noise, animal control, and many other domains of everyday regulation, but they are fragmented across vendor platforms designed for human browsing rather than bulk research access. We introduce LOCUS - the Local Ordinance Corpus for the United States - a comprehensive corpus and county-harmonized access layer for U.S. municipal and county ordinance codes. The raw corpus, available for release to researchers, represents nearly all publicly available municipal and county ordinance codes. The resulting raw corpus contains codes from 9,239 cities and counties. A smaller county-harmonized LOCUS access layer provides coverage for the largest 2,309 of 3,144 U.S. counties, accounting for a majority of the population. We use OCR to handle the myriad of document formats that have kept the law from being a public resource. We release the corpus with coverage metadata to support reproducibility, downstream legal AI research, and the incremental expansion of machine-readable access to local law. We train a collection of ModernBERT-based classifiers and scorers to facilitate analyzing U.S. local law among several dimensions, such as opacity and paternalism, that have not previously been studied at this scale. LOCUS-v1 and its derivative models are available at: https://huggingface.co/datasets/LocalLaws/LOCUS-v1