Élargir l'accès aux données de sécurité des transports avec l'IA générative : un cadre fondé sur un schéma pour les requêtes spatiales en langage naturel

Résumé

L'analyse de la sécurité des transports nécessite l'intégration des données d'accidents, des caractéristiques routières et des données géospatiales via des flux de travail fondés sur les SIG, mais l'accès reste inégal entre les agences et les parties prenantes communautaires. Les prérequis techniques créent un fossé entre les outils analytiques essentiels à la planification de la sécurité et les praticiens capables de les utiliser. Les agences locales, les comités scolaires et les résidents peuvent avoir des préoccupations de sécurité, mais une capacité limitée à récupérer, filtrer, cartographier et analyser les données pertinentes. L'IA générative offre un moyen de réduire cet écart, mais son utilisation dans le secteur public soulève des questions de fiabilité, de reproductibilité et de gouvernance. Cet article présente une interface en langage naturel ancrée dans un schéma pour l'analyse de la sécurité des transports, utilisant un grand modèle de langage (LLM) pour interpréter l'intention de l'utilisateur tout en préservant une exécution déterministe et vérifiable par rapport à une base de données faisant autorité. Les requêtes des utilisateurs sont traduites en cadres sémantiques structurés, validées par une couche basée sur des règles, compilées en un graphe acyclique orienté typé d'opérations spatiales, puis exécutées sur une base de données PostGIS. Cette conception délimitée sépare l'interprétation du langage de l'exécution déterministe, garantissant des résultats reproductibles et ancrés dans le schéma tout en supprimant les barrières d'accès. Le cadre est évalué à l'aide d'une base de données de sécurité des transports à l'échelle de l'État du Massachusetts, intégrant les données d'accidents, les caractéristiques routières et des couches géospatiales incluant les écoles, les arrêts de bus, les passages piétons et les limites municipales. Toutes les requêtes ont été exécutées avec succès ; la couche de validation corrige les erreurs dans 29 % des requêtes d'évaluation, reflétant l'écart entre le langage naturel flexible et les exigences strictes ancrées dans le schéma. Les résultats suggèrent que combiner l'accessibilité du langage naturel avec une exécution déterministe constitue une direction pratique pour élargir l'accès aux données de sécurité des transports, avec des implications pour une IA digne de confiance dans la planification du secteur public.

English

Transportation safety analysis requires integrating crash records, roadway attributes, and geospatial data through GIS-based workflows, but access remains uneven across agencies and community stakeholders. Technical prerequisites create a gap between analytical tools central to safety planning and the practitioners able to use them. Local agencies, school committees, and residents may have safety concerns but limited capacity to retrieve, filter, map, and analyze relevant data. Generative AI offers a way to narrow this divide, but its public-sector use raises questions about reliability, reproducibility, and governance. This paper presents a schema-grounded natural language interface for transportation safety analysis, using a large language model (LLM) to interpret user intent while preserving deterministic, reviewable execution against an authoritative database. User queries are translated into structured semantic frames, validated by a rule-based layer, compiled into a typed directed acyclic graph of spatial operations, and executed against a PostGIS database. This bounded design separates language interpretation from deterministic execution, keeping results reproducible and schema-grounded while removing access barriers. The framework is evaluated using a statewide Massachusetts transportation safety database integrating crash records, roadway attributes, and geospatial layers including schools, bus stops, crosswalks, and municipal boundaries. All queries executed successfully; the validation layer corrects errors in 29% of evaluation queries, reflecting the gap between flexible natural language and strict schema-grounded requirements. The results suggest that combining natural language accessibility with deterministic execution is a practical direction for broadening access to transportation safety data, with implications for trustworthy AI in public-sector planning.