ChatPaper.aiChatPaper

NuRisk: Um Conjunto de Dados de Resposta Visual a Perguntas para Avaliação de Risco em Nível de Agente na Condução Autônoma

NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving

September 30, 2025
Autores: Yuan Gao, Mattia Piccinini, Roberto Brusnicki, Yuchen Zhang, Johannes Betz
cs.AI

Resumo

Compreender o risco na condução autônoma exige não apenas percepção e previsão, mas também raciocínio de alto nível sobre o comportamento dos agentes e o contexto. Os métodos atuais baseados em Modelos de Linguagem Visual (VLMs) principalmente ancoram os agentes em imagens estáticas e fornecem julgamentos qualitativos, carecendo do raciocínio espaço-temporal necessário para capturar como os riscos evoluem ao longo do tempo. Para abordar essa lacuna, propomos o NuRisk, um conjunto de dados abrangente de Resposta a Perguntas Visuais (VQA) composto por 2.900 cenários e 1,1 milhão de amostras no nível do agente, construído com dados do mundo real do nuScenes e Waymo, complementados com cenários críticos de segurança do simulador CommonRoad. O conjunto de dados fornece imagens sequenciais baseadas em Visão de Cima (BEV) com anotações quantitativas de risco no nível do agente, permitindo raciocínio espaço-temporal. Avaliamos VLMs conhecidos em diferentes técnicas de prompt e descobrimos que eles falham em realizar raciocínio espaço-temporal explícito, resultando em uma precisão máxima de 33% com alta latência. Para superar essas deficiências, nosso agente VLM de 7B ajustado melhora a precisão para 41% e reduz a latência em 75%, demonstrando capacidades explícitas de raciocínio espaço-temporal que os modelos proprietários não possuíam. Embora isso represente um avanço significativo, a modesta precisão ressalta o profundo desafio da tarefa, estabelecendo o NuRisk como um benchmark crítico para o avanço do raciocínio espaço-temporal na condução autônoma.
English
Understanding risk in autonomous driving requires not only perception and prediction, but also high-level reasoning about agent behavior and context. Current Vision Language Models (VLMs)-based methods primarily ground agents in static images and provide qualitative judgments, lacking the spatio-temporal reasoning needed to capture how risks evolve over time. To address this gap, we propose NuRisk, a comprehensive Visual Question Answering (VQA) dataset comprising 2,900 scenarios and 1.1 million agent-level samples, built on real-world data from nuScenes and Waymo, supplemented with safety-critical scenarios from the CommonRoad simulator. The dataset provides Bird-Eye-View (BEV) based sequential images with quantitative, agent-level risk annotations, enabling spatio-temporal reasoning. We benchmark well-known VLMs across different prompting techniques and find that they fail to perform explicit spatio-temporal reasoning, resulting in a peak accuracy of 33% at high latency. To address these shortcomings, our fine-tuned 7B VLM agent improves accuracy to 41% and reduces latency by 75%, demonstrating explicit spatio-temporal reasoning capabilities that proprietary models lacked. While this represents a significant step forward, the modest accuracy underscores the profound challenge of the task, establishing NuRisk as a critical benchmark for advancing spatio-temporal reasoning in autonomous driving.
PDF02October 6, 2025