Расширение доступа к данным о безопасности дорожного движения с помощью генеративного ИИ: схемно-ориентированный фреймворк для пространственных запросов на естественном языке

Аннотация

Анализ безопасности дорожного движения требует интеграции данных о ДТП, характеристик дорожной сети и геопространственных данных с помощью ГИС-ориентированных рабочих процессов, однако доступ к таким данным остается неравномерным среди различных агентств и заинтересованных сторон сообщества. Технические требования создают разрыв между аналитическими инструментами, необходимыми для планирования безопасности, и практикующими специалистами, способными их использовать. Местные органы власти, школьные комитеты и жители могут испытывать озабоченность по вопросам безопасности, но обладают ограниченными возможностями для извлечения, фильтрации, картографирования и анализа соответствующих данных. Генеративный искусственный интеллект предлагает способ сократить этот разрыв, однако его использование в государственном секторе вызывает вопросы о надежности, воспроизводимости и управлении. В данной статье представлен основанный на схеме естественно-языковой интерфейс для анализа безопасности дорожного движения, использующий большую языковую модель (LLM) для интерпретации намерений пользователя при сохранении детерминированного, проверяемого исполнения запросов к авторитетной базе данных. Пользовательские запросы переводятся в структурированные семантические фреймы, проверяемые правилами на основе эвристического слоя, компилируются в типизированный направленный ациклический граф пространственных операций и выполняются в базе данных PostGIS. Такая ограниченная архитектура разделяет интерпретацию языка и детерминированное выполнение, обеспечивая воспроизводимость результатов и привязку к схеме, одновременно устраняя барьеры доступа. Предложенная структура оценивается с использованием общегосударственной базы данных по безопасности дорожного движения Массачусетса, объединяющей записи о ДТП, характеристики дорожной сети и геопространственные слои, включая школы, автобусные остановки, пешеходные переходы и муниципальные границы. Все запросы были успешно выполнены; слой валидации исправляет ошибки в 29% тестовых запросов, что отражает разрыв между гибким естественным языком и строгими требованиями, основанными на схеме. Полученные результаты свидетельствуют о том, что сочетание доступности естественного языка с детерминированным выполнением является практическим направлением для расширения доступа к данным о безопасности дорожного движения, что имеет значение для создания надежного ИИ в государственном планировании.

English

Transportation safety analysis requires integrating crash records, roadway attributes, and geospatial data through GIS-based workflows, but access remains uneven across agencies and community stakeholders. Technical prerequisites create a gap between analytical tools central to safety planning and the practitioners able to use them. Local agencies, school committees, and residents may have safety concerns but limited capacity to retrieve, filter, map, and analyze relevant data. Generative AI offers a way to narrow this divide, but its public-sector use raises questions about reliability, reproducibility, and governance. This paper presents a schema-grounded natural language interface for transportation safety analysis, using a large language model (LLM) to interpret user intent while preserving deterministic, reviewable execution against an authoritative database. User queries are translated into structured semantic frames, validated by a rule-based layer, compiled into a typed directed acyclic graph of spatial operations, and executed against a PostGIS database. This bounded design separates language interpretation from deterministic execution, keeping results reproducible and schema-grounded while removing access barriers. The framework is evaluated using a statewide Massachusetts transportation safety database integrating crash records, roadway attributes, and geospatial layers including schools, bus stops, crosswalks, and municipal boundaries. All queries executed successfully; the validation layer corrects errors in 29% of evaluation queries, reflecting the gap between flexible natural language and strict schema-grounded requirements. The results suggest that combining natural language accessibility with deterministic execution is a practical direction for broadening access to transportation safety data, with implications for trustworthy AI in public-sector planning.