NuRisk: Ein Visual-Question-Answering-Datensatz zur Bewertung von Agentenrisiken im autonomen Fahren

papers.abstract

Das Verständnis von Risiken im autonomen Fahren erfordert nicht nur Wahrnehmung und Vorhersage, sondern auch hochrangige Schlussfolgerungen über das Verhalten von Agenten und den Kontext. Aktuelle Methoden, die auf Vision-Language-Models (VLMs) basieren, verankern Agenten hauptsächlich in statischen Bildern und liefern qualitative Beurteilungen, wobei sie die räumlich-zeitliche Argumentation vermissen, die erforderlich ist, um zu erfassen, wie sich Risiken im Laufe der Zeit entwickeln. Um diese Lücke zu schließen, schlagen wir NuRisk vor, einen umfassenden Visual Question Answering (VQA)-Datensatz, der 2.900 Szenarien und 1,1 Millionen Agenten-basierte Proben umfasst und auf realen Daten von nuScenes und Waymo aufbaut, ergänzt durch sicherheitskritische Szenarien aus dem CommonRoad-Simulator. Der Datensatz bietet sequenzielle Bilder in der Vogelperspektive (Bird-Eye-View, BEV) mit quantitativen, Agenten-basierten Risikoannotationen, die räumlich-zeitliche Argumentation ermöglichen. Wir testen bekannte VLMs mit verschiedenen Prompting-Techniken und stellen fest, dass sie keine explizite räumlich-zeitliche Argumentation durchführen können, was zu einer maximalen Genauigkeit von 33 % bei hoher Latenz führt. Um diese Mängel zu beheben, verbessert unser feinabgestimmter 7B VLM-Agent die Genauigkeit auf 41 % und reduziert die Latenz um 75 %, wodurch explizite räumlich-zeitliche Argumentationsfähigkeiten demonstriert werden, die proprietären Modellen fehlten. Obwohl dies einen bedeutenden Fortschritt darstellt, unterstreicht die bescheidene Genauigkeit die tiefgreifende Herausforderung der Aufgabe und etabliert NuRisk als einen kritischen Benchmark für die Weiterentwicklung der räumlich-zeitlichen Argumentation im autonomen Fahren.

English

Understanding risk in autonomous driving requires not only perception and prediction, but also high-level reasoning about agent behavior and context. Current Vision Language Models (VLMs)-based methods primarily ground agents in static images and provide qualitative judgments, lacking the spatio-temporal reasoning needed to capture how risks evolve over time. To address this gap, we propose NuRisk, a comprehensive Visual Question Answering (VQA) dataset comprising 2,900 scenarios and 1.1 million agent-level samples, built on real-world data from nuScenes and Waymo, supplemented with safety-critical scenarios from the CommonRoad simulator. The dataset provides Bird-Eye-View (BEV) based sequential images with quantitative, agent-level risk annotations, enabling spatio-temporal reasoning. We benchmark well-known VLMs across different prompting techniques and find that they fail to perform explicit spatio-temporal reasoning, resulting in a peak accuracy of 33% at high latency. To address these shortcomings, our fine-tuned 7B VLM agent improves accuracy to 41% and reduces latency by 75%, demonstrating explicit spatio-temporal reasoning capabilities that proprietary models lacked. While this represents a significant step forward, the modest accuracy underscores the profound challenge of the task, establishing NuRisk as a critical benchmark for advancing spatio-temporal reasoning in autonomous driving.

NuRisk: Ein Visual-Question-Answering-Datensatz zur Bewertung von Agentenrisiken im autonomen Fahren

NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving

papers.abstract

Support