NuRisk: Een visueel vraag-antwoorddataset voor risicobeoordeling op agentniveau in autonoom rijden
NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving
September 30, 2025
Auteurs: Yuan Gao, Mattia Piccinini, Roberto Brusnicki, Yuchen Zhang, Johannes Betz
cs.AI
Samenvatting
Het begrijpen van risico's in autonoom rijden vereist niet alleen waarneming en voorspelling, maar ook hoogwaardige redenering over agentgedrag en context. Huidige methoden gebaseerd op Vision Language Models (VLMs) plaatsen agenten voornamelijk in statische afbeeldingen en bieden kwalitatieve beoordelingen, maar missen de ruimtelijk-temporele redenering die nodig is om te begrijpen hoe risico's zich in de tijd ontwikkelen. Om deze kloof te overbruggen, stellen we NuRisk voor, een uitgebreide Visual Question Answering (VQA)-dataset bestaande uit 2.900 scenario's en 1,1 miljoen agentniveau-monsters, gebaseerd op real-world data van nuScenes en Waymo, aangevuld met veiligheidskritieke scenario's uit de CommonRoad-simulator. De dataset biedt sequentiële afbeeldingen op basis van Bird-Eye-View (BEV) met kwantitatieve, agentniveau-risicoannotaties, waardoor ruimtelijk-temporele redenering mogelijk wordt. We testen bekende VLMs met verschillende promptingtechnieken en constateren dat ze niet in staat zijn tot expliciete ruimtelijk-temporele redenering, wat resulteert in een piekprecisie van 33% bij hoge latentie. Om deze tekortkomingen aan te pakken, verbetert onze afgestemde 7B VLM-agent de precisie tot 41% en vermindert de latentie met 75%, wat expliciete ruimtelijk-temporele redeneervaardigheden aantoont die propriëtaire modellen misten. Hoewel dit een significante stap vooruit is, benadrukt de bescheiden precisie de diepgaande uitdaging van de taak, waardoor NuRisk een kritieke benchmark wordt voor het bevorderen van ruimtelijk-temporele redenering in autonoom rijden.
English
Understanding risk in autonomous driving requires not only perception and
prediction, but also high-level reasoning about agent behavior and context.
Current Vision Language Models (VLMs)-based methods primarily ground agents in
static images and provide qualitative judgments, lacking the spatio-temporal
reasoning needed to capture how risks evolve over time. To address this gap, we
propose NuRisk, a comprehensive Visual Question Answering (VQA) dataset
comprising 2,900 scenarios and 1.1 million agent-level samples, built on
real-world data from nuScenes and Waymo, supplemented with safety-critical
scenarios from the CommonRoad simulator. The dataset provides Bird-Eye-View
(BEV) based sequential images with quantitative, agent-level risk annotations,
enabling spatio-temporal reasoning. We benchmark well-known VLMs across
different prompting techniques and find that they fail to perform explicit
spatio-temporal reasoning, resulting in a peak accuracy of 33% at high latency.
To address these shortcomings, our fine-tuned 7B VLM agent improves accuracy to
41% and reduces latency by 75%, demonstrating explicit spatio-temporal
reasoning capabilities that proprietary models lacked. While this represents a
significant step forward, the modest accuracy underscores the profound
challenge of the task, establishing NuRisk as a critical benchmark for
advancing spatio-temporal reasoning in autonomous driving.