NuRisk: Un Conjunto de Datos de Respuesta Visual a Preguntas para la Evaluación de Riesgo a Nivel de Agente en la Conducción Autónoma
NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving
September 30, 2025
Autores: Yuan Gao, Mattia Piccinini, Roberto Brusnicki, Yuchen Zhang, Johannes Betz
cs.AI
Resumen
Comprender el riesgo en la conducción autónoma no solo requiere percepción y predicción, sino también un razonamiento de alto nivel sobre el comportamiento de los agentes y el contexto. Los métodos actuales basados en Modelos de Lenguaje Visual (VLMs) principalmente anclan a los agentes en imágenes estáticas y ofrecen juicios cualitativos, careciendo del razonamiento espacio-temporal necesario para capturar cómo evolucionan los riesgos a lo largo del tiempo. Para abordar esta brecha, proponemos NuRisk, un conjunto de datos integral de Respuesta a Preguntas Visuales (VQA) que comprende 2,900 escenarios y 1.1 millones de muestras a nivel de agente, construido sobre datos del mundo real de nuScenes y Waymo, complementado con escenarios críticos de seguridad del simulador CommonRoad. El conjunto de datos proporciona imágenes secuenciales basadas en Vista de Ojo de Pájaro (BEV) con anotaciones cuantitativas de riesgo a nivel de agente, permitiendo el razonamiento espacio-temporal. Evaluamos VLMs conocidos a través de diferentes técnicas de indicación y encontramos que no logran realizar un razonamiento espacio-temporal explícito, alcanzando una precisión máxima del 33% con alta latencia. Para abordar estas deficiencias, nuestro agente VLM de 7B ajustado mejora la precisión al 41% y reduce la latencia en un 75%, demostrando capacidades explícitas de razonamiento espacio-temporal que los modelos propietarios carecían. Si bien esto representa un avance significativo, la modesta precisión subraya el profundo desafío de la tarea, estableciendo a NuRisk como un punto de referencia crítico para avanzar en el razonamiento espacio-temporal en la conducción autónoma.
English
Understanding risk in autonomous driving requires not only perception and
prediction, but also high-level reasoning about agent behavior and context.
Current Vision Language Models (VLMs)-based methods primarily ground agents in
static images and provide qualitative judgments, lacking the spatio-temporal
reasoning needed to capture how risks evolve over time. To address this gap, we
propose NuRisk, a comprehensive Visual Question Answering (VQA) dataset
comprising 2,900 scenarios and 1.1 million agent-level samples, built on
real-world data from nuScenes and Waymo, supplemented with safety-critical
scenarios from the CommonRoad simulator. The dataset provides Bird-Eye-View
(BEV) based sequential images with quantitative, agent-level risk annotations,
enabling spatio-temporal reasoning. We benchmark well-known VLMs across
different prompting techniques and find that they fail to perform explicit
spatio-temporal reasoning, resulting in a peak accuracy of 33% at high latency.
To address these shortcomings, our fine-tuned 7B VLM agent improves accuracy to
41% and reduces latency by 75%, demonstrating explicit spatio-temporal
reasoning capabilities that proprietary models lacked. While this represents a
significant step forward, the modest accuracy underscores the profound
challenge of the task, establishing NuRisk as a critical benchmark for
advancing spatio-temporal reasoning in autonomous driving.