NuRisk: Een visueel vraag-antwoorddataset voor risicobeoordeling op agentniveau in autonoom rijden

Samenvatting

Het begrijpen van risico's in autonoom rijden vereist niet alleen waarneming en voorspelling, maar ook hoogwaardige redenering over agentgedrag en context. Huidige methoden gebaseerd op Vision Language Models (VLMs) plaatsen agenten voornamelijk in statische afbeeldingen en bieden kwalitatieve beoordelingen, maar missen de ruimtelijk-temporele redenering die nodig is om te begrijpen hoe risico's zich in de tijd ontwikkelen. Om deze kloof te overbruggen, stellen we NuRisk voor, een uitgebreide Visual Question Answering (VQA)-dataset bestaande uit 2.900 scenario's en 1,1 miljoen agentniveau-monsters, gebaseerd op real-world data van nuScenes en Waymo, aangevuld met veiligheidskritieke scenario's uit de CommonRoad-simulator. De dataset biedt sequentiële afbeeldingen op basis van Bird-Eye-View (BEV) met kwantitatieve, agentniveau-risicoannotaties, waardoor ruimtelijk-temporele redenering mogelijk wordt. We testen bekende VLMs met verschillende promptingtechnieken en constateren dat ze niet in staat zijn tot expliciete ruimtelijk-temporele redenering, wat resulteert in een piekprecisie van 33% bij hoge latentie. Om deze tekortkomingen aan te pakken, verbetert onze afgestemde 7B VLM-agent de precisie tot 41% en vermindert de latentie met 75%, wat expliciete ruimtelijk-temporele redeneervaardigheden aantoont die propriëtaire modellen misten. Hoewel dit een significante stap vooruit is, benadrukt de bescheiden precisie de diepgaande uitdaging van de taak, waardoor NuRisk een kritieke benchmark wordt voor het bevorderen van ruimtelijk-temporele redenering in autonoom rijden.

English

Understanding risk in autonomous driving requires not only perception and prediction, but also high-level reasoning about agent behavior and context. Current Vision Language Models (VLMs)-based methods primarily ground agents in static images and provide qualitative judgments, lacking the spatio-temporal reasoning needed to capture how risks evolve over time. To address this gap, we propose NuRisk, a comprehensive Visual Question Answering (VQA) dataset comprising 2,900 scenarios and 1.1 million agent-level samples, built on real-world data from nuScenes and Waymo, supplemented with safety-critical scenarios from the CommonRoad simulator. The dataset provides Bird-Eye-View (BEV) based sequential images with quantitative, agent-level risk annotations, enabling spatio-temporal reasoning. We benchmark well-known VLMs across different prompting techniques and find that they fail to perform explicit spatio-temporal reasoning, resulting in a peak accuracy of 33% at high latency. To address these shortcomings, our fine-tuned 7B VLM agent improves accuracy to 41% and reduces latency by 75%, demonstrating explicit spatio-temporal reasoning capabilities that proprietary models lacked. While this represents a significant step forward, the modest accuracy underscores the profound challenge of the task, establishing NuRisk as a critical benchmark for advancing spatio-temporal reasoning in autonomous driving.

NuRisk: Een visueel vraag-antwoorddataset voor risicobeoordeling op agentniveau in autonoom rijden

NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving

Samenvatting

Support