Ampliando el acceso a los datos de seguridad del transporte con IA generativa: Un marco fundamentado en esquemas para consultas espaciales en lenguaje natural

Resumen

El análisis de la seguridad en el transporte requiere integrar registros de siniestros, atributos de la vía y datos geoespaciales mediante flujos de trabajo basados en SIG, pero el acceso sigue siendo desigual entre agencias y partes interesadas de la comunidad. Los requisitos técnicos crean una brecha entre las herramientas analíticas fundamentales para la planificación de la seguridad y los profesionales capaces de utilizarlas. Las agencias locales, los comités escolares y los residentes pueden tener preocupaciones sobre la seguridad, pero una capacidad limitada para recuperar, filtrar, mapear y analizar datos relevantes. La inteligencia artificial generativa ofrece una forma de reducir esta brecha, pero su uso en el sector público plantea interrogantes sobre fiabilidad, reproducibilidad y gobernanza. Este artículo presenta una interfaz de lenguaje natural basada en esquemas para el análisis de la seguridad en el transporte, utilizando un modelo de lenguaje de gran tamaño (LLM) para interpretar la intención del usuario, al tiempo que preserva una ejecución determinista y verificable contra una base de datos autorizada. Las consultas de los usuarios se traducen en marcos semánticos estructurados, validados por una capa basada en reglas, compilados en un grafo acíclico dirigido tipado de operaciones espaciales y ejecutados contra una base de datos PostGIS. Este diseño acotado separa la interpretación del lenguaje de la ejecución determinista, manteniendo resultados reproducibles y fundamentados en el esquema, mientras elimina las barreras de acceso. El marco se evalúa utilizando una base de datos de seguridad del transporte a nivel estatal de Massachusetts que integra registros de siniestros, atributos de la vía y capas geoespaciales que incluyen escuelas, paradas de autobús, cruces peatonales y límites municipales. Todas las consultas se ejecutaron con éxito; la capa de validación corrige errores en el 29 % de las consultas de evaluación, lo que refleja la brecha entre el lenguaje natural flexible y los estrictos requisitos basados en esquemas. Los resultados sugieren que combinar la accesibilidad del lenguaje natural con la ejecución determinista es una dirección práctica para ampliar el acceso a los datos de seguridad del transporte, con implicaciones para una IA confiable en la planificación del sector público.

English

Transportation safety analysis requires integrating crash records, roadway attributes, and geospatial data through GIS-based workflows, but access remains uneven across agencies and community stakeholders. Technical prerequisites create a gap between analytical tools central to safety planning and the practitioners able to use them. Local agencies, school committees, and residents may have safety concerns but limited capacity to retrieve, filter, map, and analyze relevant data. Generative AI offers a way to narrow this divide, but its public-sector use raises questions about reliability, reproducibility, and governance. This paper presents a schema-grounded natural language interface for transportation safety analysis, using a large language model (LLM) to interpret user intent while preserving deterministic, reviewable execution against an authoritative database. User queries are translated into structured semantic frames, validated by a rule-based layer, compiled into a typed directed acyclic graph of spatial operations, and executed against a PostGIS database. This bounded design separates language interpretation from deterministic execution, keeping results reproducible and schema-grounded while removing access barriers. The framework is evaluated using a statewide Massachusetts transportation safety database integrating crash records, roadway attributes, and geospatial layers including schools, bus stops, crosswalks, and municipal boundaries. All queries executed successfully; the validation layer corrects errors in 29% of evaluation queries, reflecting the gap between flexible natural language and strict schema-grounded requirements. The results suggest that combining natural language accessibility with deterministic execution is a practical direction for broadening access to transportation safety data, with implications for trustworthy AI in public-sector planning.