NuRisk: Ein Visual-Question-Answering-Datensatz zur Bewertung von Agentenrisiken im autonomen Fahren
NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving
September 30, 2025
papers.authors: Yuan Gao, Mattia Piccinini, Roberto Brusnicki, Yuchen Zhang, Johannes Betz
cs.AI
papers.abstract
Das Verständnis von Risiken im autonomen Fahren erfordert nicht nur Wahrnehmung und Vorhersage, sondern auch hochrangige Schlussfolgerungen über das Verhalten von Agenten und den Kontext. Aktuelle Methoden, die auf Vision-Language-Models (VLMs) basieren, verankern Agenten hauptsächlich in statischen Bildern und liefern qualitative Beurteilungen, wobei sie die räumlich-zeitliche Argumentation vermissen, die erforderlich ist, um zu erfassen, wie sich Risiken im Laufe der Zeit entwickeln. Um diese Lücke zu schließen, schlagen wir NuRisk vor, einen umfassenden Visual Question Answering (VQA)-Datensatz, der 2.900 Szenarien und 1,1 Millionen Agenten-basierte Proben umfasst und auf realen Daten von nuScenes und Waymo aufbaut, ergänzt durch sicherheitskritische Szenarien aus dem CommonRoad-Simulator. Der Datensatz bietet sequenzielle Bilder in der Vogelperspektive (Bird-Eye-View, BEV) mit quantitativen, Agenten-basierten Risikoannotationen, die räumlich-zeitliche Argumentation ermöglichen. Wir testen bekannte VLMs mit verschiedenen Prompting-Techniken und stellen fest, dass sie keine explizite räumlich-zeitliche Argumentation durchführen können, was zu einer maximalen Genauigkeit von 33 % bei hoher Latenz führt. Um diese Mängel zu beheben, verbessert unser feinabgestimmter 7B VLM-Agent die Genauigkeit auf 41 % und reduziert die Latenz um 75 %, wodurch explizite räumlich-zeitliche Argumentationsfähigkeiten demonstriert werden, die proprietären Modellen fehlten. Obwohl dies einen bedeutenden Fortschritt darstellt, unterstreicht die bescheidene Genauigkeit die tiefgreifende Herausforderung der Aufgabe und etabliert NuRisk als einen kritischen Benchmark für die Weiterentwicklung der räumlich-zeitlichen Argumentation im autonomen Fahren.
English
Understanding risk in autonomous driving requires not only perception and
prediction, but also high-level reasoning about agent behavior and context.
Current Vision Language Models (VLMs)-based methods primarily ground agents in
static images and provide qualitative judgments, lacking the spatio-temporal
reasoning needed to capture how risks evolve over time. To address this gap, we
propose NuRisk, a comprehensive Visual Question Answering (VQA) dataset
comprising 2,900 scenarios and 1.1 million agent-level samples, built on
real-world data from nuScenes and Waymo, supplemented with safety-critical
scenarios from the CommonRoad simulator. The dataset provides Bird-Eye-View
(BEV) based sequential images with quantitative, agent-level risk annotations,
enabling spatio-temporal reasoning. We benchmark well-known VLMs across
different prompting techniques and find that they fail to perform explicit
spatio-temporal reasoning, resulting in a peak accuracy of 33% at high latency.
To address these shortcomings, our fine-tuned 7B VLM agent improves accuracy to
41% and reduces latency by 75%, demonstrating explicit spatio-temporal
reasoning capabilities that proprietary models lacked. While this represents a
significant step forward, the modest accuracy underscores the profound
challenge of the task, establishing NuRisk as a critical benchmark for
advancing spatio-temporal reasoning in autonomous driving.