NuRisk: Набор данных для визуального ответа на вопросы, предназначенный для оценки рисков на уровне агентов в автономном вождении
NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving
September 30, 2025
Авторы: Yuan Gao, Mattia Piccinini, Roberto Brusnicki, Yuchen Zhang, Johannes Betz
cs.AI
Аннотация
Понимание рисков в автономном вождении требует не только восприятия и прогнозирования, но и высокоуровневого анализа поведения агентов и контекста. Современные методы, основанные на моделях Vision Language Models (VLMs), в основном работают со статичными изображениями и предоставляют качественные оценки, не обладая пространственно-временным анализом, необходимым для отслеживания эволюции рисков во времени. Чтобы устранить этот пробел, мы предлагаем NuRisk — всеобъемлющий набор данных для задачи Visual Question Answering (VQA), включающий 2900 сценариев и 1,1 миллиона примеров на уровне агентов, созданный на основе реальных данных из nuScenes и Waymo, дополненных критически важными сценариями из симулятора CommonRoad. Набор данных предоставляет последовательные изображения в виде Bird-Eye-View (BEV) с количественными аннотациями рисков на уровне агентов, что позволяет проводить пространственно-временной анализ. Мы тестируем известные VLMs с использованием различных методов запросов и обнаруживаем, что они не способны выполнять явный пространственно-временной анализ, достигая пиковой точности в 33% при высокой задержке. Чтобы устранить эти недостатки, наша доработанная 7B VLM-модель повышает точность до 41% и сокращает задержку на 75%, демонстрируя явные возможности пространственно-временного анализа, которых не хватало проприетарным моделям. Хотя это представляет собой значительный шаг вперед, скромная точность подчеркивает глубину сложности задачи, устанавливая NuRisk в качестве важного эталонного теста для развития пространственно-временного анализа в автономном вождении.
English
Understanding risk in autonomous driving requires not only perception and
prediction, but also high-level reasoning about agent behavior and context.
Current Vision Language Models (VLMs)-based methods primarily ground agents in
static images and provide qualitative judgments, lacking the spatio-temporal
reasoning needed to capture how risks evolve over time. To address this gap, we
propose NuRisk, a comprehensive Visual Question Answering (VQA) dataset
comprising 2,900 scenarios and 1.1 million agent-level samples, built on
real-world data from nuScenes and Waymo, supplemented with safety-critical
scenarios from the CommonRoad simulator. The dataset provides Bird-Eye-View
(BEV) based sequential images with quantitative, agent-level risk annotations,
enabling spatio-temporal reasoning. We benchmark well-known VLMs across
different prompting techniques and find that they fail to perform explicit
spatio-temporal reasoning, resulting in a peak accuracy of 33% at high latency.
To address these shortcomings, our fine-tuned 7B VLM agent improves accuracy to
41% and reduces latency by 75%, demonstrating explicit spatio-temporal
reasoning capabilities that proprietary models lacked. While this represents a
significant step forward, the modest accuracy underscores the profound
challenge of the task, establishing NuRisk as a critical benchmark for
advancing spatio-temporal reasoning in autonomous driving.