ChatPaper.aiChatPaper

Libérer le droit avec LOCUS : un corpus d'ordonnances locales pour les États-Unis

Freeing the Law with LOCUS: A Local Ordinance Corpus for the United States

June 17, 2026
Auteurs: Denis Peskoff, Joe Barrow, Christopher Vu, Diag Davenport
cs.AI

Résumé

Les progrès de l'IA juridique dépendent de plus en plus d'un accès à grande échelle à des textes juridiques faisant autorité. Pourtant, l'un des niveaux les plus déterminants du droit américain reste largement absent des corpus lisibles par machine existants : les ordonnances locales. Les codes locaux régissent le zonage, le logement, les licences commerciales, la santé publique, le bruit, le contrôle animalier et bien d'autres domaines de la réglementation quotidienne, mais ils sont fragmentés sur des plateformes de fournisseurs conçues pour la navigation humaine plutôt que pour un accès en masse à la recherche. Nous présentons LOCUS – le corpus d'ordonnances locales pour les États-Unis (Local Ordinance Corpus for the United States) – un corpus complet et une couche d'accès harmonisé au niveau du comté pour les codes d'ordonnances municipales et de comté américains. Le corpus brut, disponible pour diffusion aux chercheurs, représente la quasi-totalité des codes d'ordonnances municipales et de comté accessibles au public. Le corpus brut qui en résulte contient des codes provenant de 9 239 villes et comtés. Une couche d'accès LOCUS harmonisée au niveau du comté, de plus petite taille, couvre les 2 309 plus grands des 3 144 comtés américains, représentant une majorité de la population. Nous utilisons l'OCR pour traiter la myriade de formats de documents qui ont empêché le droit d'être une ressource publique. Nous publions le corpus avec des métadonnées de couverture afin de soutenir la reproductibilité, la recherche avancée en IA juridique et l'expansion progressive de l'accès lisible par machine au droit local. Nous entraînons un ensemble de classifieurs et de scoreurs basés sur ModernBERT pour faciliter l'analyse du droit local américain selon plusieurs dimensions, telles que l'opacité et le paternalisme, qui n'avaient pas encore été étudiées à cette échelle. LOCUS-v1 et ses modèles dérivés sont disponibles à l'adresse : https://huggingface.co/datasets/LocalLaws/LOCUS-v1
English
Progress in legal AI increasingly depends on access to authoritative legal text at scale. Yet one of the most consequential layers of American law remains largely absent from existing machine-readable corpora: local ordinances. Local codes govern zoning, housing, business licensing, public health, noise, animal control, and many other domains of everyday regulation, but they are fragmented across vendor platforms designed for human browsing rather than bulk research access. We introduce LOCUS - the Local Ordinance Corpus for the United States - a comprehensive corpus and county-harmonized access layer for U.S. municipal and county ordinance codes. The raw corpus, available for release to researchers, represents nearly all publicly available municipal and county ordinance codes. The resulting raw corpus contains codes from 9,239 cities and counties. A smaller county-harmonized LOCUS access layer provides coverage for the largest 2,309 of 3,144 U.S. counties, accounting for a majority of the population. We use OCR to handle the myriad of document formats that have kept the law from being a public resource. We release the corpus with coverage metadata to support reproducibility, downstream legal AI research, and the incremental expansion of machine-readable access to local law. We train a collection of ModernBERT-based classifiers and scorers to facilitate analyzing U.S. local law among several dimensions, such as opacity and paternalism, that have not previously been studied at this scale. LOCUS-v1 and its derivative models are available at: https://huggingface.co/datasets/LocalLaws/LOCUS-v1