Ampliando o Acesso a Dados de Segurança de Transporte com IA Generativa: Um Framework Baseado em Esquema para Consultas Espaciais em Linguagem Natural

Resumo

A análise de segurança no transporte exige a integração de registros de acidentes, atributos viários e dados geoespaciais por meio de fluxos de trabalho baseados em SIG, mas o acesso permanece desigual entre agências e partes interessadas da comunidade. Pré-requisitos técnicos criam uma lacuna entre as ferramentas analíticas essenciais ao planejamento de segurança e os profissionais capazes de utilizá-las. Agências locais, comitês escolares e moradores podem ter preocupações com segurança, mas capacidade limitada para recuperar, filtrar, mapear e analisar dados relevantes. A IA generativa oferece uma forma de reduzir essa disparidade, mas seu uso no setor público levanta questões sobre confiabilidade, reprodutibilidade e governança. Este artigo apresenta uma interface de linguagem natural fundamentada em esquema para análise de segurança no transporte, utilizando um modelo de linguagem de grande escala (LLM) para interpretar a intenção do usuário, ao mesmo tempo que preserva uma execução determinística e auditável sobre um banco de dados autoritativo. As consultas do usuário são traduzidas em quadros semânticos estruturados, validadas por uma camada baseada em regras, compiladas em um grafo acíclico dirigido tipado de operações espaciais e executadas contra um banco de dados PostGIS. Esse projeto delimitado separa a interpretação da linguagem da execução determinística, mantendo os resultados reprodutíveis e fundamentados no esquema, enquanto remove barreiras de acesso. O framework é avaliado usando um banco de dados estadual de segurança no transporte de Massachusetts, que integra registros de acidentes, atributos viários e camadas geoespaciais, incluindo escolas, pontos de ônibus, faixas de pedestres e limites municipais. Todas as consultas foram executadas com sucesso; a camada de validação corrige erros em 29% das consultas de avaliação, refletindo a lacuna entre a linguagem natural flexível e os requisitos rigorosos fundamentados em esquema. Os resultados sugerem que combinar acessibilidade por linguagem natural com execução determinística é uma direção prática para ampliar o acesso a dados de segurança no transporte, com implicações para a IA confiável no planejamento do setor público.

English

Transportation safety analysis requires integrating crash records, roadway attributes, and geospatial data through GIS-based workflows, but access remains uneven across agencies and community stakeholders. Technical prerequisites create a gap between analytical tools central to safety planning and the practitioners able to use them. Local agencies, school committees, and residents may have safety concerns but limited capacity to retrieve, filter, map, and analyze relevant data. Generative AI offers a way to narrow this divide, but its public-sector use raises questions about reliability, reproducibility, and governance. This paper presents a schema-grounded natural language interface for transportation safety analysis, using a large language model (LLM) to interpret user intent while preserving deterministic, reviewable execution against an authoritative database. User queries are translated into structured semantic frames, validated by a rule-based layer, compiled into a typed directed acyclic graph of spatial operations, and executed against a PostGIS database. This bounded design separates language interpretation from deterministic execution, keeping results reproducible and schema-grounded while removing access barriers. The framework is evaluated using a statewide Massachusetts transportation safety database integrating crash records, roadway attributes, and geospatial layers including schools, bus stops, crosswalks, and municipal boundaries. All queries executed successfully; the validation layer corrects errors in 29% of evaluation queries, reflecting the gap between flexible natural language and strict schema-grounded requirements. The results suggest that combining natural language accessibility with deterministic execution is a practical direction for broadening access to transportation safety data, with implications for trustworthy AI in public-sector planning.