NuRisk : Un ensemble de données de questions-réponses visuelles pour l'évaluation des risques au niveau de l'agent dans la conduite autonome
NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving
September 30, 2025
papers.authors: Yuan Gao, Mattia Piccinini, Roberto Brusnicki, Yuchen Zhang, Johannes Betz
cs.AI
papers.abstract
Comprendre le risque dans la conduite autonome nécessite non seulement la perception et la prédiction, mais aussi un raisonnement de haut niveau sur le comportement des agents et le contexte. Les méthodes actuelles basées sur les modèles de langage visuel (Vision Language Models, VLMs) ancrent principalement les agents dans des images statiques et fournissent des jugements qualitatifs, manquant ainsi du raisonnement spatio-temporel nécessaire pour capturer l'évolution des risques dans le temps. Pour combler cette lacune, nous proposons NuRisk, un ensemble de données complet de question-réponse visuelle (Visual Question Answering, VQA) comprenant 2 900 scénarios et 1,1 million d'échantillons au niveau des agents, construit à partir de données réelles provenant de nuScenes et Waymo, complétées par des scénarios critiques pour la sécurité issus du simulateur CommonRoad. L'ensemble de données fournit des images séquentielles basées sur une vue de dessus (Bird-Eye-View, BEV) avec des annotations quantitatives de risque au niveau des agents, permettant un raisonnement spatio-temporel. Nous évaluons des VLMs bien connus à travers différentes techniques d'invite et constatons qu'ils échouent à effectuer un raisonnement spatio-temporel explicite, atteignant une précision maximale de 33 % avec une latence élevée. Pour pallier ces lacunes, notre agent VLM de 7B affiné améliore la précision à 41 % et réduit la latence de 75 %, démontrant des capacités de raisonnement spatio-temporel explicite que les modèles propriétaires ne possédaient pas. Bien que cela représente une avancée significative, la précision modeste souligne la profonde difficulté de la tâche, établissant NuRisk comme un benchmark critique pour faire progresser le raisonnement spatio-temporel dans la conduite autonome.
English
Understanding risk in autonomous driving requires not only perception and
prediction, but also high-level reasoning about agent behavior and context.
Current Vision Language Models (VLMs)-based methods primarily ground agents in
static images and provide qualitative judgments, lacking the spatio-temporal
reasoning needed to capture how risks evolve over time. To address this gap, we
propose NuRisk, a comprehensive Visual Question Answering (VQA) dataset
comprising 2,900 scenarios and 1.1 million agent-level samples, built on
real-world data from nuScenes and Waymo, supplemented with safety-critical
scenarios from the CommonRoad simulator. The dataset provides Bird-Eye-View
(BEV) based sequential images with quantitative, agent-level risk annotations,
enabling spatio-temporal reasoning. We benchmark well-known VLMs across
different prompting techniques and find that they fail to perform explicit
spatio-temporal reasoning, resulting in a peak accuracy of 33% at high latency.
To address these shortcomings, our fine-tuned 7B VLM agent improves accuracy to
41% and reduces latency by 75%, demonstrating explicit spatio-temporal
reasoning capabilities that proprietary models lacked. While this represents a
significant step forward, the modest accuracy underscores the profound
challenge of the task, establishing NuRisk as a critical benchmark for
advancing spatio-temporal reasoning in autonomous driving.